13 Glossaire

Définition des notions essentielles de la textométrie et de TXM.

Catégories :

  • com : Commande

  • don : Modèle de données

  • for : Format de fichier

  • int : Interface utilisateur

  • tal : Traitement Automatique de la Langue (TAL)

  • req : requête CQL

  • log : Composant logiciel

  • mét : Méthodologie Textométrique

Entrée Cat Description
AFC com action de réduire le nombre de dimensions d’une matrice (de type « parties x mots ») avec l’algorithme d’analyse factorielle des correspondances. Les nouvelles dimensions sont représentées par des vecteurs propres appelés facteurs. Les parties et les mots de la matrice originelle peuvent être affichés simultanément dans les plans factoriels résultants.
AFR tal code standard pour l’ancien français.
Alceste log logiciel commercial textométrie.
annotation don propriété d’une unité (lexicale ou structurelle) d’un point de vue logique.
balise don représentation bornée d’un élément, qui contient ses propriétés, en langage XML
caractère don unité élémentaire constituant la forme d’un mot.
CATTEX2009 tal jeu d’étiquettes morphosyntaxiques pour l’ancien français.
module d’importation com composant logiciel qui importe des éléments dans la plateforme TXM, depuis une source.
ClipN int corpus créés à partir du presse-papier sont nommés ‘Clip’+<un numéro>.
CNR for format de données de Cordial.
commande com action disponible dans TXM.
concordance com manière de présenter les résultats d’une recherche, où chaque occurrence apparaît centrée sur sa propre ligne, au milieu de son contexte.
console int TXM affiche divers messages lors de son exécution, dans une fenêtre appelée « console ».
Cordial tal étiqueteur morphosyntaxique et lemmatiseur commercial.
corpus don ensemble de mots. Ces ensembles viennent de textes, entiers ou lacunaires. Les corpus « racines » sont construits à partir de bases.
CQL req pour <Corpus Query Language>, langage de requêtes géré par CQP, appliqué aux corpus.
CQP log pour <Corpus Query Processor>, module logiciel gérant les requêtes pour construire des index, concordances, etc.
CSV for signifie « Comma Separated Values ». C’est un fichier texte où chaque ligne de résultat est séparée par saut de ligne et où les valeurs sont séparées par un caractère séparateur (comme la virgule).
Ctrl int touche « Ctrl » ou « Control » sur le clavier.
document don texte logique.
éditeur com fenêtre où un texte (comme un fichier source ou un script) peut être modifié.
encodage don façon dont une information est représentée dans le corpus source.
espace de travail int ensemble de tous les objets disponibles dans TXM (corpus, sous-corpus…).
étiqueteur log logiciel indépendant, capable de segmenter les mots, de leur associer une étiquette morphosyntaxique ou un lemme, à partir de sources textuelles.
étiquette tal propriété morphosyntaxique d’un mot
export com action d’enregistrer dans un fichier les résultats d’une commande TXM.
fichier don élément du système d’exploitation contenant des informations sur le disque dur de l’utilisateur : comme un texte ou un corpus source. Un fichier peut être désigné par un chemin d’accès.
focus int focaliser une commande sur un événement lexical particulier, par exemple à travers une requête.
forme graphique don forme graphique d’un mot, généralement calculée par les tokeniseurs.
fréquence mét nombre total d’occurrences d’un événement (une occurrence de mot, une occurrence de séquence de mots, etc.) dans un corpus.
Groovy log langage informatique dans lequel les scripts de TXM sont écrits.
HTML for format de représentation des données des pages web.
Hyperbase log logiciel académique de textométrie.
import don fait d’intégrer un corpus à la plateforme, à partir de fichiers source.
index com lister toutes les combinaisons de propriétés de mots, avec leur fréquence, pour toutes les occurrences d’une requête.
index log fichier créé par TXM afin d’accélérer les réponses aux requêtes.
indice tal valeur numérique fournie pour un modèle statistique.
infobulle int fenêtre temporaire qui s’affiche lorsqu’on survole un objet avec le curseur de la souris, par exemple, un mot dans une édition.
Java log langage dans lequel est programmé TXM.
jeu d’étiquettes don ensemble des valeurs morphosyntaxiques possibles de mots.
langage don langage dans lequel est écrit un texte ou un corpus.
lem don voir lemme.
lemme don entrée d’un mot dans le dictionnaire courant.
lemmatiseur log module logiciel qui fait correspondre une entrée de dictionnaire à chaque mot du texte
lexique com lister toutes les formes possibles de mots, ou de fréquences de propriétés de mot, dans un corpus.
ligne de statut log TXM affiche des commentaires temporaires sur les opérations qu’il effectue, dans un espace situé en bas à gauche de l’interface.
littéral req caractère considéré pour lui-même dans une requête.
localisation int l’interface de TXM peut s’afficher dans différentes langues, qui peuvent être paramétrées dans le menu « localisation » des préférences.
matcher tal correspondance structurelle dans l’algèbre des caractères de propriétés ou des occurrences
metadonnées don propriétés d’un texte ou d’un document entiers. Chaque métadonnée a un nom, un type et une valeur.
modifieur req caractère spécial utilisé pour exprimer certaines variantes dans une requête.
mot don unité lexicale identifiée grâce à sa forme graphique et à sa position dans la séquence des mots. Elle est généralement construite par les tokeniseurs.
Multext tal jeu d’étiquettes standard européen.
occurrence mét apparition d’un événement textuel dans un corpus, comme une occurrence de mot.
opérateur req caractère spécial ayant une signification particulière dans une requête.
page don segment de texte affiché sur un support, correspondant généralement à une page d’une édition papier.
partie don élément d’une partition d’un corpus.
partition don découpage d’un corpus en différentes parties. La somme de toutes ces parties correspond au corpus dans son ensemble. On utilise les partitions pour analyser les contrastes entre les parties (comme entre les dates de discours, des auteurs, des sections d’un même texte, etc.)
phrase tal séquence de mots, syntaxiquement homogène, construite par les tokeniseurs.
pivot com colonne centrale d’une concordance, affichant toutes les occurrences d’une requête donnée.
pos don pour « part of speech », les informations morphosyntaxiques d’un mot.
préférence int chaque commande de TXM possède des paramètres. Certains de ces paramètres peuvent être réglés dans la fenêtre « Préférences ».
presse-papier don fonction du système d’exploitation permettant de stocker une sélection de texte, grâce à la commande « copier ».
propriété don information sur une unité lexicale ou structurelle.
référence int information affichée au début d’une ligne de concordance, qui provient des propriétés des unités lexicales et structurelles.
dossier don dossier contenant des fichiers ou d’autres dossiers, sur le disque dur de l’utilisateur. Un dossier peut être désigné par un chemin.
requête com chaine de caractères exprimant une combinaison de mots et de propriétés de mots.
script log fichier contenant une description d’actions précises qui peut être exécutée par TXM.
sélection mét liste de séquences de mots. Le résultat d’une recherche pour une requête est une sélection.
source don représentation initiale d’un corpus, dans un format propre, contenue dans plusieurs fichiers ou dossiers. Par exemple, le format peut être du TXT (texte brut), du XML ou de la TEI.
spécificité com action de lister des formes de mots spécifiques, ou des propriétés de mot, à chaque partie d’une partition, conformément au modèle quantitatif des spécificités.
T met le nombre total d’occurrences dans un corpus
TAL log pour « Traitement Automatique de la Langue ».
TEI for pour « Text Encoding Initiative », la façon standard d’encoder les textes. Consortium international de standardisation de l’encodage des sources de corpus. Voir http://www.tei-c.org. Le format TEI est exprimé en XML.
texte don séquence de mots de structure homogène, décrite par des propriétés appelées métadonnées.
textométrie mét méthodologie qu’applique TXM. La textométrie vous aide à analyser les corpus de textes, au moyen d’outils quantitatif et qualitatifs. Voir https://www.textometrie.org.
tokeniseur log composant logiciel capable de séparer les mots et de les caractériser par des propriétés, dans les fichiers source.
TreeTagger log logiciel étiqueteur indépendant académique
TXT for format de données d’un fichier en texte brut (sans aucune annotation).
unité don unité lexicale ou structurelle d’un texte.
unité structurelle don élément marquant la structure logique d’un texte. Dans TXM, toutes les unités structurelles sont organisées de manière hiérarchique : chaque unité est imbriquée dans une autre unité – jusqu’à l’unité ‘text’. La plus petite unité structurelle se trouve juste au-dessus de l’unité lexicale.
V mét nombre total de formes graphiques différentes d’un corpus.
vocabulaire com générer un lexique ou un index.
Weblex log logiciel de textométrie académique.
window manager int logiciel qui permet d’organiser son interface de travail.
XML for format de données principal des sources des corpus.