Data SHS 2024
12/12/2024

TXM, un logiciel de textométrie open-source pour l’analyse de données textuelles en sciences humaines et sociales (12 décembre 2024).
Intervenante :
Bénédicte Pincemin, chargée de recherche en linguistique
(CNRS, IHRIM UMR 5317, ENS de Lyon)

Dans le cadre de la semaine Data SHS 2024, cet exposé présente le logiciel TXM du point de vue de ses possibilités d’usage en recherche. Une démonstration donne un aperçu de la palette des principales fonctionnalités disponibles. Une fois cette vue d’ensemble concrète posée, on peut d’une part situer la textométrie par rapport à d’autres approches d’analyse de données textuelles (text mining, CAQDAS,…), et d’autre part dégager les caractéristiques de TXM au sein des logiciels de textométrie, complémentaires les uns des autres. Dans le domaine très vaste des humanités numériques, on entend ainsi aider à comprendre à quels types de besoins et d’attentes la méthode textométrique en général, et le logiciel TXM en particulier, peuvent correspondre.
Programme de DATA SHS 2024 (organisé par la MSH Lyon St-Etienne).


  1. Présentation initiale

0:00:00 Présentation personnelle
0:00:13 Présentation de l’équipe TXM
0:03:33 Plan général


  1. Démonstration : aperçu concret de TXM

0:07:09 Lancement de TXM
0:07:29 Aperçu du site de référence de TXM : textometrie.org
0:09:44 Présentation du corpus VOEUX
0:11:15 Commande ÉDITION
0:13:15 Réponse à une question sur le format des textes pour les entrer dans TXM
0:14:50 Commande ÉDITION, suite : l’annotation linguistique automatique réalisée par TreeTagger
0:15:31 Commande NAVIGATEUR (et suite de l’explication de l’annotation TreeTagger)
0:16:31 Préanalyse possible avec un autre logiciel que TreeTagger
0:17:26 Commande PROPRIÉTÉS
0:18:42 Commande CONCORDANCE
0:24:36 Réponse à une question sur le langage de requête dans TXM – premier aperçu de l’assistant de requête
0:26:05 Commande CONCORDANCE (suite)
0:28:57 Commande INDEX
0:31:14 Gestionnaire de fenêtres : possibilité d’afficher plusieurs résultats côte à côte
0:32:38 Commande INDEX (suite, dont recherche distributionnelle et éléments de langage CQL).
Note : 0:36:37 À la relecture de l’enregistrement, je ne suis plus très convaincue par mon usage des parenthèses ! Préférer :
([word = « France »] [frpos = « ADJ »]) | ([frpos = « ADJ »] [word = « France »])
0:40:39 Commande COOCCURRENCE
0:43:55 Commande PROGRESSION
Note : À découvrir aussi, le double-clic en un point d’une courbe de Progression pour revenir au texte.
0:55:18 Commande SOUS-CORPUS
0:59:12 Commande PARTITION
1:00:40 Commande DIMENSIONS
1:00:58 Console
1:01:55 Commande PARTITION (suite)
1:05:34 Commande INDEX DE PARTITION
1:07:14 Commande TABLE LEXICALE
1:11:19 Commande CONSERVER
1:12:10 Commande AFC (Analyse factorielle des correspondances)
1:14:54 Commande SPÉCIFICITÉS
1:18:20 Réponse à des questions sur l’AFC
1:24:32 Commande CAH (classification ascendante hiérarchique)
Note : 1:24:53 En tout cas la différence avec la classification sur les images du diaporama s’explique par le fait que le tableau de données est légèrement différent (suppression ou non des auxiliaires « être » et « avoir »).
1:28:25 Analyse de corpus multimedia (extension MediaPlayer)
1:34:40 Réponse à des questions sur le langage d’interrogation CQL
1:43:08 Réponse à une question sur l’enregistrement des requêtes et l’export de résultats
1:46:55 Réponse à une question sur l’import de données


  1. Définir la textométrie

1:51:27 Définir la textométrie
Note : Le livre évoqué en 1:54:22 est Fénelon 1981


  1. Caractériser TXM

2:04:47 Lignée textométrique, open-source, corpus structurés
2:10:32 Annotation en cours d’analyse
Note : Le travail évoqué en 2:14:00 a été présenté dans la communication Quibeuf et al. 2024.
2:21:51 Stylage des visualisations d’AFC


  1. Articulation avec d’autres logiciels, en particulier IRaMuTeQ

2:22:45 IRaMuTeQ par rapport à TXM
2:29:44 Articulation de TXM avec différents logiciels


  1. Éléments pour un profil d’usage de TXM

2:35:40 Affinité de la textométrie avec la recherche en SHS


  1. Réponse aux dernières questions, informations conclusives

2:37:17 Réponse à une question sur le choix d’un format de codage pour un corpus
2:39:45 Réponse à une question sur la compatibilité avec des corpus en latin ou en grec (ou dans d’autres langues)
Note : L’article évoqué en 2:40:29 est Pincemin & Marchand 2022
2:45:34 Licence
Note : Référence à citer quand on utilise TXM (2:46:36) : Heiden et al. 2010 en contexte francophone, Heiden 2010 à l’international


Diaporama de l’exposé

Play Video