1 Introduction
TXM fournit une interface graphique de haut niveau à des outils d’analyse de corpus de textes.
Ces outils implémentent la textométrie, une méthodologie d’analyse de textes, combinant un ensemble complet d’outils d’analyse quantitatifs et qualitatifs.
1.1 Outils quantitatifs
Les outils quantitatifs produisent des synthèses « en masse » basées sur :
- des fréquences : le dénombrement de divers phénomènes ou “faits” textuels construits à partir des mots des textes - l’apparition d’un mot ou d’une séquence de mots, d’un lemme((la disponibilité du lemme et de la catégorie grammaticale des mots repose sur l’application automatique d’un lemmatiseur sur les textes)), d’une catégorie grammaticale, d’une succession d’un mot et d’une catégorie grammaticale particulière, etc.
- des contextes : diverses configurations de corpus isolant des textes - par exemple un sous-corpus de textes d’un certain genre, un sous-corpus des prises de paroles d’un certain locuteur - ou comparant des textes - par exemple une partition (un contraste) entre plusieurs genres ou locuteurs -.
Outils quantitatifs travaillant sur une partition (ou contraste)
- l’analyse factorielle des correspondances (AFC) : fournit une représentation plane des relations entre parties et faits textuels, à l’aide de facteurs ordonnés
- la classification hiérarchique ascendante (CAH) : fournit des classes de regroupement des parties et s’utilise en lien avec l’AFC
- le calcul des mots spécifiques : classe les faits textuels selon l’étonnement statistique que l’on a de leur dénombrement dans les parties
Outils quantitatifs travaillant sur un corpus ou sous-corpus
- cooccurrents : classe les faits textuels apparaissant dans le contexte d’un fait pivot selon l’étonnement statistique que l’on a de leur dénombrement dans les contextes
1.2 Outils qualitatifs
Les outils qualitatifs sont des outils « d’affinage » de l’analyse :
- les progressions : affichent une représentation des apparitions longitudinales des faits textuels
- les index et lexiques : génèrent des listes de faits accompagnés de leur fréquence (ou nombre d’apparitions)
- les concordanciers : affichent les contextes d’apparition d’un fait textuel
- les éditions de texte : offrent une lecture hypertextuelle des textes
1.3 Quatre types de corpus
TXM peut gérer des corpus de quatre types de textes différents :
- les textes écrits : dans divers formats source TXT, DOCX, ODT, XML, TEI…
- les transcriptions d’enregistrements audio ou vidéo synchronisées par timecode : aux formats Transcriber, TXT tabulé, DOCX tabulé, ODT tabulé
- les corpus alignés - multilingues ou multiversions - : au format TMX
- les corpus en tableau, comme les réponses à des questionnaires d’enquête ou des échanges de tweets ou SMS : aux formats Excel, ODS, CSV
1.4 Pré-annotation linguistique automatique
Tous les corpus sont gérés en interne dans une représentation numérique XML-TEI standard et peuvent être automatiquement lemmatisés à la volée par le logiciel TreeTagger lors de l’import du corpus dans TXM ou bien en amont par des outils de TAL externes produisant une sortie XML encodant les mots et les annotations qui sera importée par TXM.
1.5 Annotation semi-automatique
TXM permet de corriger ou d’ajouter des annotations aux mots des textes depuis des vues de résultats comme les concordanciers.
1.6 Calculs statistiques et moteurs de recherche avancés
TXM utilise une version embarquée de R pour tous ses calculs statistiques et des versions embarquées de moteurs de recherche spécialisés pour extraire tous les phénomènes observables et dénombrables au sein des textes (les « faits » textuels) : comme toute combinaison d’annotations de mots (forme graphique, catégorie grammaticale, lemme…), de positions conjointes de mots et de limites de structures de texte, exprimées dans le langage de requête du moteur de recherche CQP.
1.7 Mises en oeuvre de TXM
TXM est disponible pour poste de travail Windows, Mac ou Linux ainsi que sous forme de portail web. L’interface web reproduit au mieux celle de la version pour poste, qui offre le plus de fonctionnalités. Elle permet également l’accès aux corpus en ligne – exemples de portails publics ici : https://groupes.renater.fr/wiki/txm-users/public/references_portails.
TXM est régulièrement utilisé dans de nombreux domaines scientifiques, comme par exemple : linguistique, langue, littérature, civilisation, géographie, documentation, sciences de l’information et de la communication, didactique, sciences de l’éducation, histoire, sociologie, informatique, mathématiques, statistiques, philosophie, psychologie, sciences politiques, urbanisme, transports, économie, administration, sciences de gestion, sciences biologiques, anthropologie, sciences de l’art.
Pour en savoir plus sur TXM et sa communauté d’utilisateurs, manuel, tutoriaux et documents de référence, n’hésitez pas à visiter le site du projet : https://www.textometrie.org.