10 Extensions

Les fonctionnalités de TXM peuvent être augmentées par l’ajout d’extensions.

Pour ajouter une extension, voir la section 3.3 « Installer une extension ».

Cette section documente les extensions disponibles.

10.1 Extension « Annotation URS »

Cette extension est documentée dans la section 8.3 « Annotation avec un modèle Unité-Relation-Schéma (URS) au fil du texte ».

10.2 Extensions « TreeTagger software » et « TreeTagger en, fr models »

Les extensions « TreeTagger software » et « TreeTagger en, fr models » fonctionnent de concert pour appliquer le logiciel TreeTagger sur les corpus de textes en langue anglaise ou française au moment de leur importation dans TXM.

10.2.1 Annotation linguistique automatique

L’application du logiciel TreeTagger ajoute automatiquement des catégories morphosyntaxiques et des lemmes aux mots. Par exemple, pour le français :

les catégories morphosyntaxiques seront ajoutées sous la forme d’une nouvelle propriété de mots appelée frpos ;
les lemmes seront ajoutés sous la forme d’une nouvelle propriété de mots appelée frlemma.

Les catégories morphosyntaxiques ajoutées sont documentées pour chaque langue :

français ;
anglais ;
etc.

Les lemmes correspondent aux formes normalisées sans flexion des mots c’est à dire aux entrées de dictionnaire : par exemple l’infinitif pour les verbes, le masculin-singulier pour les substantifs et les adjectifs.

10.2.2 Mise en oeuvre dans TXM

L’installation de ces deux extensions est décrite dans la section 3.2 « Installer TreeTagger pour ajouter automatiquement des propriétés morphosyntaxiques et des lemmes aux mots ».

Le réglage de ces deux extensions est décrit dans la section 5.3.3 « Langue principale » documentant le formulaire de paramètres d’importation de corpus dans TXM.

D’autres langues peuvent être traitées par TreeTagger, y compris des variantes du français et de l’anglais. Pour cela il faut les ajouter à TXM en suivant la procédure manuelle décrite dans la section B.1 Télécharger les fichiers depuis le web et les préparer de la page d’installation des modèles de langues supplémentaires de TreeTagger.

10.2.3 Paramétrage de TreeTagger

L’appel de TreeTagger peut être configuré à partir de paramètres supplémentaires de la page de préférences « TXM > Avancé > TAL > TreeTagger » :

Figure 10.1: Préférences de paramètres d’appel de TreeTagger.

10.2.3.1 Paramètres d’étiquetage (TreeTagger process options)

Paramètres d’application d’un modèle de langue :

Print the token rather than <unknown> for unknown lemma (true par défaut)
- pour les mots inconnus, il est plus intéressant d’utiliser la forme du mot comme lemme plutôt que le lemme générique « <unknown> ».
- mettre à false permet de découvrir les lemmes inconnus.
Look up unknown capitalized words in the list of lower-case words
- pour autoriser le traitement de mots en majuscules inconnus comme des formes équivalentes en minuscules présentent dans le modèle de langue.
Turn on the heuristics for guessing the parts of speech of unknown hyphenated words
- pour utiliser l’heuristique de détermination de la catégorie morpho-syntaxique des mots césurés inconnus
Print tag probabilities
- ajouter une propriété encodant la probabilité d’attribution de la catégorie morpho-syntaxique
Read auxiliary lexicon entries from a file
- utiliser un fichier de lexique complémentaire (au format un mot par ligne, voir la documentation de TreeTagger)
Read a word-class automaton from a file
- utiliser un fichier d’automate de classe de mots (voir la documentation de TreeTagger)

10.2.3.2 Paramètres d’apprentissage (TreeTagger training process options)

Paramètres d’apprentissage d’un modèle de langue :

consider <n> preceeding tags for tagging
- 0 par défaut
- taille de la fenêtre de mots à utiliser pour désambiguiser le choix de la catégorie morpho-syntaxique
use <f> as threshold for decision tree gain
- seuil de gain pour l’arbre de décision (voir la documentation de TreeTagger)
use <f> as smoothing weight
- poids de lissage
use <f> as threshold for affix tree gain
- seuil de gain pour l’arbre d’affixes
use <f> as equivalence class weight
- poids des classes d’équivalence
use <f> as threshold probability for lexical entries (default 0.001)
- seuil de probabilité pour le choix de mot

10.3 Extension « Annotation Syntaxique »

L’extension « Syntactic Annotation » (ou Annotation Syntaxique) ajoute des fonctionnalités d’importation et d’exploitation d’annotations syntaxiques entre les mots des phrases au moyen de deux types d’annotations :

CoNLL-U : sous la forme de nouvelles propriétés de mots encodant les dépendances syntaxiques entre les mots selon le modèle Universal Dependencies ou UD⁵⁰
TIGER : sous la forme d’arbres syntaxiques selon le modèle TIGER

Les relations UD sont directement exploitables avec le moteur CQP.

Les arbres TIGER sont exploitables avec le moteur spécialisé TIGERSearch.

Nous présentons les principaux outils disponibles dans l’ordre de leur usage, accompagnés d’exemples.

10.3.1 Importation d’informations syntaxiques dans TXM

TXM peut importer des informations syntaxiques soit :

1. en important (ou chargeant) des corpus annotés en syntaxe aux formats CoNLL-U ou TIGER-XML, c’est à dire en créant un nouveau corpus TXM ;
1. en important des annotations syntaxiques, aux formats CoNLL-U ou TIGER-XML, au sein d’un corpus TXM pré-existant.

Remarque : TXM ne permet pas encore d’annoter en syntaxe à la volée lors de l’import d’un corpus comme il le fait avec TreeTagger pour la lemmatisation.

Les importations d’annotations syntaxiques (B) permettent de combiner l’usage de la syntaxe avec toutes les services habituels des corpus TXM : structures textuelles, autres annotations de mots, éditions élaborées, relations aux fichiers média (images, sons, vidéos), etc. Il repose sur un partage d’identifiants de mots entre les fichiers d’annotations syntaxiques et le corpus TXM.

10.3.1.1 Import de corpus annotés en syntaxe (A)

Les corpus annotés en syntaxe sont importés respectivement par :

pour la syntaxe CoNLL-U (UD) : le module Fichier > Importer > Corpus > CoNLL-U + CSV
pour la syntaxe TIGER : le module Fichier > Importer > Corpus > XML-TIGERSearch

10.3.1.2 Import d’annotations syntaxiques (B)

Les annotations syntaxiques CoNLL-U sont injectées dans des corpus pré-existants avec deux commandes :

pour plusieurs fichiers .conllu : Fichier > Importer > Annotations > Import CoNLL-U Annotations from directory…
pour un seul fichier .conllu : Fichier > Importer > Annotations > Import CoNLL-U Annotations from file….

Les annotations syntaxiques TIGER sont injectées dans des corpus pré-existants avec la commande Fichier > Importer > Annotations > Importer des annotations TIGERSearch depuis un répertoire….

Les mots (terminaux) des annotations syntaxiques doivent encoder un identifiant qui correspondra à ceux des mots du corpus TXM pour que la projection puisse fonctionner. Pour le format CoNLL-U, cet identifiant sera encodé dans la colonne MISC sous la forme XmlId=w_xxx, w_xxx étant la valeur de l’attribut @id des éléments <w> des mots des fichiers pivots du corpus TXM (au format XML TEI TXM).

Remarques :

pour produire des fichiers d’annotations syntaxiques qui serviront à une injection, le plus simple est d’exporter les textes du corpus TXM au format CoNNL-U avec la commande Fichier > Exporter > Corpus > in CoNLL-U format (.conllu), qui encodera les identifiants de mots dans la colonne MISC. On peut ensuite utiliser un parseur acceptant le format CoNLL-U en entrée et qui préserve le contenu d’entrée de la colonne MISC.
attention, si le corpus n’est pas segmenté en phrases (par exemple avec une balise <s>), l’export produit un fichier avec une phrase par mot.

Nous allons maintenant présenter comment importer puis exploiter un corpus annoté en syntaxe au format CoNLL-U (avec le module d’import “CoNLL-U + CSV”). L’import de corpus au format TIGER et l’import d’annotations syntaxiques seront détaillés dans la section de référence “Autres outils d’importation d’informations syntaxiques CoNLL-U ou TIGER”.

10.3.2 Importation d’un corpus au format CoNLL-U

Le module d’import “CoNLL-U + CSV” prend en entrée un répertoire de fichiers au format CoNLL-U d’extension .conllu (un texte par fichier).

Le corpus créé contient de façon imbriquée :

une structure <text> par fichier source correspondant au texte défini par le fichier CoNLL-U (voir ci-dessous comment est déterminée l’unité textuelle)
des structures <p> correspondant aux paragraphes CoNLL-U, encodés par les lignes #newpar id
des structures <s> correspondant aux phrases CoNLL-U
des mots dans les phrases dont les propriétés sont issues des colonnes UD. Leur nom correspond à celui de la colonne préfixé par défaut par “ud-” (ce préfixe est paramétrable dans les préférences de TXM)

10.3.2.1 Indexation des mots par le moteur TIGERSearch

Ce paramètre d’import permet de créer des arbres TIGER à partir des mots CoNLL-U, pour un requêtage avec TIGERSearch :

il nécessite l’installation de Perl
chaque fichier CoNLL-U est d’abord converti au format TIGER-XML par un script Perl, les phrases trop longues (plus de 100 mots) étant ignorées à cause des limites de TIGERSearch (il n’y a pas de limite pour le nombre de phrases)
puis un fichier driver TIGER est créé pour rassembler tous ces fichiers dans un corpus TIGER
une fois indexé par TIGERSearch, le corpus peut être interrogé à la fois par CQP et par TIGERSearch

Installation et paramétrage de Perl :

Ubuntu : installé par défaut, sinon sudo apt install perl
Mac OS X : installé par défaut, sinon télécharger et installer Perl
Windows : télécharger et installer Strawberry Perl Pour Windows seulement, indiquer le chemin vers Perl dans la page de préférences TXM > Utilisateur > Script > Perl > Chemin de l'exécutable Perl, exemple : C:/StrawberryPerl/perl/bin

10.3.2.2 Identification des unités textuelles

Par default, TXM créé un texte du corpus par fichier “CoNLL-U” en utilisant le nom du fichier sans l’extension .conllu comme identifiant .

Le paramètre d’import ‘Utiliser les commentaires “#newdoc id”’ de la section “CoNLL-U” permet de délimiter et de donner un identifiant aux textes à partir des lignes “#newdoc id” du format CoNLL-U. Si le fichier ne contient pas de telles lignes, le nom du fichier est utilisé.

10.3.2.3 Gestion des mots contractés

Le format CoNLL-U encode les mots contractés (multi-word surface token - MWT) et les mots “syntaxiques” correspondants sur plusieurs lignes de mots UD.

Par exemple la contraction de surface “des” est encodée sur trois lignes, comme dans l’exemple suivant :

Tableau 10.1: Encodage de la contraction “des” au format CoNLL-U.
ID	FORM	LEMMA	UPOS	XPOS	FEATS	HEAD	DEPREL	DEPS	MISC
6-7	des	_	_	_	_	_	_	_	_
6	de	de	ADP	_	_	8	case	_	_
7	les	le	DET	_	Definite=Def\|Number=Plur\|PronType=Art	8	det	_	_

une ligne d’ID 6-7 pour la forme de surface “des”, sans propriétés syntaxiques (_)
une ligne d’ID 6 pour le premier mot syntaxique “de”, avec ses propriétés syntaxiques
une ligne d’ID 7 pour le deuxième mot syntaxique “le”, avec ses propriétés syntaxiques

TXM permet de choisir comment sont indexées ces trois lignes au moment de l’import du corpus à l’aide du paramètre ‘Gestion des contractions’ de la section “CoNLL-U” selon trois modes :

Surface (mode par défaut) : seules les lignes des formes contractées de surface sont indexées. Les lignes encodant les mots syntaxiques ne sont pas indexées mais leurs propriétés sont intégrées aux propriétés des formes contractées sous forme concaténée (en utilisant le ‘.’ comme séparateur).

Usage : dans ce mode les dénombrements lexicaux sont compatibles avec ceux des autres modules d’import de TXM. La sélection de mots syntaxiques est réalisée indirectement par le biais de requêtes portant sur les propriétés des mots contractés. Les éditions de textes rendent compte de la transcription de surface (habituelle) des textes. Les propriétés de mots affichées par survol rendent compte des propriétés des mots syntaxiques.
Syntaxe : seules les lignes des mots syntaxiques sont indexées. Les lignes encodant les formes contractées de surface ne sont pas indexées mais leur forme (la valeur de la colonne “FORM”) est intégrée dans la propriété MISC des mots syntaxiques.

Usage : dans ce mode les dénombrements lexicaux sont affectés par la multiplication des mots syntaxiques. La sélection de mots contractés est réalisée indirectement par le biais de requêtes portant sur les propriétés des mots syntaxiques (propriété MISC). Les éditions de textes affichent les mots syntaxiques à la place des formes de surface des mots contractés. Les propriétés de mots affichées par survol rendent compte des propriétés des mots syntaxiques et des formes de surface des mots contractés.
Tout : toutes les lignes UD sont indexées, les formes contractées de surface et les mots syntaxiques.

Usage : dans ce mode les dénombrements lexicaux sont affectés à la fois par la duplication des mots contractés et des mots syntaxiques et par la multiplication des mots syntaxiques. La sélection de mots contractés ou de mots syntaxiques se fait directement. Les éditions de textes affichent à la fois les formes de surface des mots contractés et les mots syntaxiques. Les propriétés de mots affichées par survol rendent compte des propriétés des mots syntaxiques ou des formes de surface des mots contractés.

10.3.2.4 Projection de propriétés UD

La projection de propriétés UD entre mots parents et mots dépendants permet d’exprimer des requêtes syntaxiques directement en CQL, en copiant les propriétés syntaxiques de parents dans leurs dépendants et inversement.

Deux paramètres d’import permettent de gérer ces projections :

Propriétés de parents à projeter : indiquer la liste des propriétés UD à projeter vers leurs dépendants séparées par des virgules ; Par défaut : “upos,deprel”

Les propriétés crées dans les mots dépendants sont préfixées par “ud-head-” + nom de la propriété projetée
Propriétés de dépendants à projeter : indiquer la liste des propriétés UD à projeter vers leur parent séparées par des virgules ; Par défaut : “upos,deprel”

Les propriétés crées dans les mots parents sont préfixées par “ud-deps-” + nom de la propriété projetée

[SLH] valeurs concaténées quand plusieurs dépendants ?

10.3.2.5 Formatage des phrases dans l’édition

Cette option formate les phrases sous la forme d’un paragraphe dans l’édition préfixé par son identifiant CoNLL-U.

[SLH] TODO

mettre le paramètre dans la section ‘Éditions’ ?

10.3.3 Exemples de corpus annotés en syntaxe au format CoNLL-U à importer dans TXM

[SLH] TODO Exemple PUD FR

https://universaldependencies.org/treebanks/fr_pud/

This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.

http://universaldependencies.org/conll17/

[SLH] TODO Exemple PROFITEROLE

Corpus exemple PROFITEROLE-GOLD-V1-0_conllu pour l’import CoNLL-U + CSV

Télécharger le corpus depuis PROFITEROLE-GOLD-V1-0_conllu.zip
Extraire les fichiers de l’archive.
Lancer le module d’import Fichier > Importer > Corpus > CoNLL-U + CSV sur le répertoire PROFITEROLE-GOLD-V1-0-CONLLU/conllu et nommer le corpus “PROFITEROLE-GOLD-V1-0”.

10.3.4 Exploitation d’informations syntaxiques

Ce manuel va d’abord présenter comment exploiter des annotations syntaxiques UD avec le moteur de recherche CQP. L’exploitation d’annotations syntaxiques avec le moteur de recherche TIGERSearch sera présentée à la section “Exploitation d’annotations syntaxiques avec le moteur TIGERSearch”.

10.3.4.1 Exploitation d’annotations syntaxiques UD avec le moteur de recherche CQP

10.3.4.1.1 Modèle syntaxique et morpho-syntaxique Universal Dependencies (UD)

Dans la représentation CoNLL-U⁵¹ des phrases, chaque mot est pointé par le mot qui le gouverne, appelé gouverneur ou tête, (propriété ud-head) avec un lien étiqueté par une relation de dépendance syntaxique définie par le projet Universal Dependencies ou UD (propriété ud-deprel). Chaque mot est également étiqueté par une partie du discours dont le jeu est défini par le même projet (propriété ud-upos). Par exemple, la syntaxe de la phrase “La Loi est l’expression de la volonté générale.” est représentée par des relations et des étiquettes comme illustré à la figure 10.2 :

les relations syntaxiques sont représentées par des arcs étiquetés par la relation de dépendance ;
les parties du discours sont affichées dans une boîte bleue ;
la racine est ici le mot “expression”.

Figure 10.2: Visualisation des relations syntaxiques dépendantielles UD.

Remarque : N’hésitez pas à utiliser la démo en ligne d’UDPipe pour tester ce modèle sur vos propres phrases.

10.3.4.1.2 Principales propriétés de mots syntaxiques et morpho-syntaxiques disponibles dans TXM

Pour l’exploitation CQP, ces informations sont disponibles sous la forme de propriétés de mots.

Propriétés syntaxiques

ud-id : numéro du mot dans la phrase syntaxique⁵² (1 à n)
ud-head : numéro du mot gouverneur dans la phrase (ou 0 pour la racine)
ud-deprel : relation de dépendance UD au mot gouverneur

Exemples de valeurs :
- ‘root’ = [je suis la] racine de la phrase (verbe conjugué, participe ou nom)
- ‘aux’ = verbe auxiliaire
- ‘nsubj’ = sujet nominal
- ‘obj’ = objet direct
- ‘iobj’ = objet indirect
- ‘obl’ = oblique
- ‘nmod’ = modifieur nominal
- ‘det’ = déterminant
- ‘conj’ et ‘cc’ = conjonctions de subordination et de coordination
- ‘ccomp’ et ‘xcomp’ = complément propositionnel essentiel ou contrôlé par un argument du niveau supérieur
ud-head-deprel = relation de dépendance du mot gouverneur lui-même (copie de son ud-deprel)
ud-dep-deprel = liste des relations de dépendance des mots gouvernés (sous la forme ‘|dep1|dep2|dep3…|’)
ud-deps : liste augmmentée des relations de dépendance sous la forme de paires ‘head:deprel’ (permet d’indiquer plusieurs gouverneurs pour un mot, en cas de coordination notamment)

Propriétés morpho-syntaxiques

ud-upos : partie du discours UD
- ‘VERB’ = verbe
- ‘AUX’ = auxiliaire
- ‘PRON’ = pronoun
- ‘ADV’ = adverb
- ‘NOUN’ = nom
- ‘PROPN’ = nom propre
- ‘NUM’ = numéral
- ‘SYM’ = symbole
- ‘DET’ = déterminant
- ‘ADJ’ = adjectif
- ‘ADP’ = préposition
- ‘PART’ = particule
- ‘CCONJ’ = conjonction de coordination
- ‘SCONJ’ = conjonction de subordination
- ‘PUNCT’ = punctuation
- ‘INTJ’ = interjection
- ‘X’ = autre
ud-feats : liste des propriétés morpho-syntaxiques UD, sous la forme ‘Definite=Def|Gender=Fem|Number=Sing|PronType=Art’ (que l’on appelle parfois ‘sous-catégories’)

[AL] Il faudrait ajouter des pipe au début et à la fin pour pouvoir utiliser l’opérateur CQL contains

ud-xpos : autre partie du discours spécifique à une langue ou issue d’un autre jeu d’étiquettes

Autres propriétés

ud-lemma : lemme ou radical⁵³
ud-form : forme du mot⁵⁴
ud-misc : autres annotations éventuelles séparées par des barres verticales⁵⁵

10.3.4.2 Outil de visualisation : Arbres syntaxiques

La commande “Arbres syntaxiques”, bouton avec l’icone d’arbre dans la barre d’outils, affiche une représentation graphique de la structure syntaxique de chaque phrase des textes du corpus.

10.3.4.2.1 Choix de la visualisation

Si une représentation TIGER est disponible pour le corpus, la commande affiche l’arbre TIGER par défaut :

knitr::include_graphics(“images/manuel-extension-annotation-syntaxique/arbre-conll-tiger.png) Visualisation TIGER

Sinon la commande affiche l’arbre UD :

soit de la librarie DepTreeViz : knitr::include_graphics(“images/manuel-extension-annotation-syntaxique/arbre-conll-ud.png) Visualisation UD - DepTreeViz
soit de la librarie Brat : knitr::include_graphics(“images/manuel-extension-annotation-syntaxique/ud-brat-visu.png) Visualisation UD - Brat

On peut choisir entre ces deux représentations (‘TIGER’ ou ‘UD’) à l’aide du menu déroulant situé en haut à gauche.

10.3.4.2.2 Navigation

On peut naviguer dans les phrases en changeant le numéro de phrase en bas à gauche de la fenêtre avec les boutons ◄ et ► du champ “Sentence”.

Comme cette visualisation peut également être ouverte depuis une ligne de concordance, ce champ “Sentence” sert également à naviguer dans les phrases de pivots (ou matchs) de la concordance. >[AL : je ne comprends pas bien ce que ça veut dire. Je peux afficher un arbre depuis une concordance, mais le changement de “Senteces” ne se synchronise pas avec la ligne de concordance sélectionnée]

Le champ “Match” permet de naviguer dans les matchs multiples au sein d’une phrase (par exemple si la requête porte sur un sujet dans une phrase complexe).

10.3.4.2.3 Visualisation de la phrase dans l’édition

Le bouton “Édition” (icone de livre) permet d’afficher et mettre en évidence la phrase dans le contexte de l’édition.

10.3.4.2.4 Recherche syntaxique

La recherche s’active à partir du bouton “Loupe” en bas à gauche dans la barre de navigation :

Après ouverture de la recherche

Le moteur de recherche dépend de la visualisation affichée :

TIGER : requête TIGER
UD : requête CQP
- Fonctionnement : les requêtes CQP se feront dans le sous-corpus “ud-s” pour limiter les résultats aux limites de phrases. Cela réduit l’accès aux structures suppérieures et il faut passer par une requête de la forme [_structure_property="..."] >[AL : je ne comprends pas… Justement, les requêtes sur structures supérieures ne serait plus possibles. ]

Une fois l’interface de recherche ouverte et la requête rentrée, il faut cliquer sur le bouton de calcul habituel des commandes de TXM pour effectuer al recherche.

La navigation se fait alors par phrase ayant matché avec la requête. Puis par match ayant matché dans la phrase. Le match affiché est mis en évidence dans l’arbre :

TIGER : le match est en rouge knitr::include_graphics(“images/manuel-extension-annotation-syntaxique/tiger-tree-visu-with-match.png)
UD : commence par “[” et finit par ”]” knitr::include_graphics(“images/manuel-extension-annotation-syntaxique/ud-tree-visu-with-match.png)

10.3.4.2.5 Retour vers l’arbre syntaxique

Il est possible de retourner à l’arbre syntaxique TIGER ou UD depuis les commandes Edition et Concordance. Il faut pour cela sélectionner un mot de l’édition ou une ligne de la concordance puis ouvrir le menu contextuel et sélectionner Lien vers l'arbre syntaxique >[AL : Attention : dans mon TXM ça affiche “Syntactic tree concordance link” (dans l’édition et concordance). Il faut supprimer “concordance” ?]

10.3.4.2.6 Autres paramètres

Choix des propriétés de NT et T à afficher pour les représentations :

TIGER : une ou plusieurs propriétés de mot (T terminal) et une propriété d’arc (NT non-terminal)
UD - DepTreeViz : un ou plusieurs champs UD de mot (terminal) et un ou plusieurs champs UD (non-terminal)
UD - Brat : pas de réglage possible pour l’instant. Eventuellement, le code UD de la phrase peut-être édité mais les nouvelles valeurs n’impacteront que l’affichage de l’arbre courant.

10.3.4.3 Outils d’exploitation CQP

Nous présentons l’utilisation de requêtes UD (il s’agit de requêtes CQP limitées aux sous-corpus “ud-s” des phrases UD. Il est construit à l’aide de la requête CQP suivante [ud-id="1"] [ud-id !="1"]+ [:ud-id="1|__UNDEF__":]) pour l’extraction syntaxique à partir de quatre exemples :

l’Index des fonctions syntaxiques d’un mot particulier
l’Index des objets d’un verbe particulier [TODO à faire]
l’Index des relations sujet-verbe-objet [TODO possible ?]
la Concordance des phrases de structures syntaxique objet-sujet-verbe (OSV)

Ces requêtes syntaxiques sont également utilisables dans toutes les commandes utilisant une requête UD (ou CQL) : Progression, Références, etc.

10.3.4.3.1 Afficher les fonctions syntaxiques du pronom « nous »

Commande Index
Paramètres :
- Requête : "nou?s"%c⁵⁶
- Réglages : Afficher la propriété ‘ud-deprel’⁵⁷

knitr::include_graphics(“images/manuel-extension-annotation-syntaxique/index-nous.png) Index des fonctions syntaxiques du pronom « nous » (formes “nous” et “nos” en ancien français)

10.3.4.3.2 Concordance de toutes les phrases de la forme OSV (proposition principale)

[TODO simplifier les requêtes grâce le mode de requête UD knitr::include_graphics(“images/manuel-extension-annotation-syntaxique/ud-search-mode.png) –> fait (AL)] Construisons la requête progressivement :

pour les phrases à verbes conjugués
- je cherche un Objet : [ud-deprel="obj"]
  - qui dépend du verbe principal : [ud-deprel="obj" & ud-head-deprel="root"]
- puis 0 à n mots : []*
- puis un Sujet : [ud-deprel="nsubj" & ud-head="root"]
- puis 0 ou n mots : []*
- puis un Verbe : [ud-deprel="root" & ud-upos="VERB"]
- requête finale : oobas [ud-deprel="obj" & ud-head-deprel="root"][]* [ud-deprel="nsubj" & ud-head-deprel="root"] []* [ud-deprel="root" & ud-upos="VERB"]
pour les phrases à verbes auxilaires
- pour retrouver les phrases avec un verbe auxiliaire, on modifie le dernier élément comme Auxiliaire qui dépend de la racine de la phrase
- requête finale : oobas [ud-deprel="obj" & ud-head-deprel="root"][]*[ud-deprel="nsubj" & ud-head-deprel="root"] []* [ud-deprel="aux" & ud-head-deprel="root"]
on combine les deux types de phrases :
- pour retrouver les deux, on combine les conditions de verbes avec l’opérateur « | » (OU) et des parenthèses
- requête finale : oobas [ud-deprel="obj" & ud-head-deprel="root"] []* [ud-deprel="nsubj" & ud-head-deprel="root"] []* [(ud-deprel="root" & ud-upos="VERB" ) | (ud-deprel="aux" & ud-head-deprel="root")]
que l’on applique dans une Concordance : knitr::include_graphics(“images/manuel-extension-annotation-syntaxique/conc-sov.png) Concordance des phrases en OSV
on peut bien sûr désigner un des mots de la requête par un label ‘@’ pour le mettre en évidence dans le pivot de la concordance. Par exemple le sujet ici : oobas [ud-deprel="obj" & ud-head-deprel="root"] []* @[ud-deprel="nsubj" & ud-head-deprel="root"] []* [(ud-deprel="root" & ud-upos="VERB" ) | (ud-deprel="aux" & ud-head-deprel="root")]

knitr::include_graphics(“images/manuel-extension-annotation-syntaxique/conc-sov-at-nsubj.png) Concordance des phrases en OSV, avec mise en évidence du sujet de la phrase

10.3.4.4 Outils Exploitation TIGERSearch

10.3.4.4.1 Index et Concordance

L’extension ajoute un nouveau moteur de résolution de requêtes appelé TIGERSearch (de diminutif “TIGER” dans l’interface de TXM) aux champs de requêtes des outils Index, PartitionIndex, Progression, Referencer et Concordance. Une requête TIGER exprime une sélection de noeuds syntaxiques à l’aide de contraintes syntaxiques appliquées aux nœuds non terminaux et terminaux (mots) du corpus. Elle s’écrit en utilisant la syntaxe du langage de requête TIGERSearch.

Si la requête contient le label “#pivot” alors seuls les mots dominés par le noeud “#pivot” sélectionné seront sélectionnés. Sinon, les résultats sélectionneront l’ensemble des mots dominés par les nœuds TIGER sélectionnés.

Voir le tutoriel Concordances KNIC pour d’autres exemples.

10.3.4.5 Utilitaires TIGER

Des outils supplémentaires sont disponibles à partir du menu principal TXM : Utilitaires > tiger > exploit. Ces outils sont livrés sous la forme de macros (scripts Groovy) modifiables depuis la vue “Macro” dans le sous-répertoire tiger.

TIGER Summary

Pour une requête TIGER donnée, affiche le nombre de matchs obtenus, sous-graphes inclus ou pas.

Si la sélection est multiple (ex: plusieurs sous-corpus sélectionnés ; une partition sur des textes sélectionnée) alors le résultat est tabulé avec un sous-corpus/partie par colonne.

Le dénombrement ne prend en compte que les matchs TIGER limités aux positions des corpus de la sélection (liste de matchs des sous-corpus/parties) → combinaison requêtes TIGER x requêtes CQL.

Paramètres :

tiger_query : “[]” par défaut
count_subgraph : “true” par défaut

Résultat :

PROFITEROLE-GOLD-V1-0 F 422211

TIGER Index

Affiche un index hiérarchique des valeurs de propriétés de noeuds de matchs TIGER.

Les noeuds sont repérés par un ou plusieurs labels dans la requête TIGER. Les labels peuvent être positionnés sur des noeuds terminaux ou non-terminaux.

L’utilisateur doit alors indiquer les labels de noeuds à utiliser et les propriétés à projeter, pour chaque label.

La macro peut prendre une sélection de sous-corpus ou une partition. Qui génèrera une liste de corpus/sous-corpus : C1, C2, … CN. La macro produira alors une colonne par sous-corpus/partie.

Paramètres :

tiger_query : “[]” par défaut
labels : liste des nœuds labelisés
properties : liste des propriétés des nœuds labelisés
count_subgraph : “true” par défaut
sort_column : “freq” (défaut) ou “labels”
max_lines : -1 (défaut, pas de limite)

Exemple:

Paramètres :
- tiger_query : #pivot:[pos="VERB"] & #clause:[cat="root" & type="VFin"] & #clause >L #pivot & #clause >D #obj:[cat=("obj"|"ccomp"|"obj\:advneg"|"obj\:advmod")] & #clause >D #suj:[cat=("nsubj"|"csubj")] & #obj >L #objhead:[] & #suj >L #sujhead:[] & #sujhead .* #pivot & #pivot .* #objhead & #sujhead:[pos=("NOUN"|"PROPN")]
- labels : sujhead,pivot,objhead
- properties : pos,mor,pos
- count_sub_matches : coché
- sort_column : freq ▼
- max_lines : -1
- debug : OFF ▼
Résultat :

pos, mor, pos F FROSRCMFUD3 NOUN_VerbForm=Fin_NOUN 20 NOUN_VerbForm=Fin_VERB 4 NOUN_Tense=Past_VerbForm=Part_NOUN 4 PROPN_VerbForm=Fin_NOUN 3 NOUN_VerbForm=Inf_NOUN 2 PROPN_VerbForm=Fin_PROPN 2 PROPN_Tense=Past_VerbForm=Part_NOUN 1 NOUN_VerbForm=Fin_PROPN 1 PROPN_VerbForm=Inf_NOUN 1 NOUN_VerbForm=Inf_PRON 1 NOUN_VerbForm=Fin_ADV 1 PROPN_VerbForm=Fin_PRON 1 NOUN_VerbForm=Fin_PRON 1

TIGER Ratio

Affiche le rapport entre le nombre de matchs de 2 requêtes TIGER, sous-graphes inclus ou pas.

(l’implémentation se fait par l’appel successif de la macro TIGER Summary avec les 2 requêtes)

Paramètres :
- tiger_query_A
- tiger_query_B
- count_subgraph
Exemple :
- tiger_query_A : #pivot:[pos="VERB"] & #clause:[cat="root" & type="VFin"] & #clause >L #pivot & #clause >D #obj:[cat=("obj"|"ccomp"|"obj\:advneg"|"obj\:advmod")] & #clause >D #suj:[cat=("nsubj"|"csubj")] & #obj >L #objhead:[] & #suj >L #sujhead:[] & #sujhead .* #pivot & #pivot .* #objhead //SVO//
- tiger_query_B : #pivot:[pos="VERB"] & #clause:[cat="root" & type="VFin"] & #clause >L #pivot & #clause >D #obj:[cat=("obj"|"ccomp"|"obj\:advneg"|"obj\:advmod")] & #clause >D #suj:[cat=("nsubj"|"csubj")] & #obj >L #objhead:[] & #suj >L #sujhead:[] & #sujhead .* #objhead & #objhead .* #pivot //SOV//
Résultat :

[FROSRCMFUD:1335] [FROSRCMFUD:3510] R = 1335 / 3510 = 0,38

TIGER SVO Summary

Calculer des statistiques sur les différentes combinaisons de S (ujet), V(erbe) et O(bjet) (les 6 sont possibles en ancien français), en tenant compte :

de la nature de S et de O (nom, pronom personnel, …), mais aussi (ce peut être des requêtes successives) :
de la détermination ou non du nom (si S et/ou O = nom) : présence ou non d’un article (et si oui, de quel type : défini, indéfini, possessif…)
de la complexité de S et de O (longueur en nombre de mots, mais aussi complexité « linguistique »: présence d’une subordonnée relative, d’un complément du nom…)
de la complexité du verbe : forme simple ou composée (temps composé, modal + infinitif…)

Paramètres :

output_file : fichier ODS de sortie
input_queries_table : fichier de tableau ODS, excel, tsv des compléments de requêtes
count_sub_matches :
sujet_value : \[cat=("nsubj"|"csubj")\] (par défaut)
object_value : \[cat=("obj"|"ccomp"|"obj\\\\:advneg"|"obj\\\\:advmod")\] (par défaut)
clauses : types de propositions décomptées
- clauses_counts_main : true (par défaut)
- clauses_counts_subordinate : false
- clauses_counts_inserted : false
output_queries : affiche les colonnes de requêtes TIGER utilisées

Résultat :

Génère un tableau ODS avec les colonnes suivantes : measure, value, qSVO, SVO, qSOV, SOV, qOSV, OSV, qOVS, OVS, qVSO, VSO, qVOS, VOS. Les colonnes ’q*’ contiennent les requêtes TIGER utilisées pour calculer chaque cellule.

[TODO voir + de détails https://groupes.renater.fr/wiki/txm-info/public/spec_exploitation_annotation/calculs_syntax_sov#v1]

10.3.5 Exportation d’informations syntaxiques

10.3.5.1 Export d’un corpus au format CONLL-U

Pour créer des fichiers *.connlu contenant les mots du corpus. Chaque fichier encode un texte du corpus.

Paramètres :

encoding : encodage des caractères des fichiers *.conllu, UTF-8 par défaut
sentenceStructure : permet d’indiquer si une structure CQP du corpus encode les phrases et de construire les phrases CoNLL correspondantes
lemmaProperty : permet d’indiquer si une propriété CQP du corpus encode le lemme des mots. La valeur sera projetée dans le champ LEMMA
posProperty : permet d’indiquer si une propriété CQP du corpus encode la morphosyntaxe des mots. La valeur sera projetée dans le champ UPOS

10.3.5.2 Export des propriétés CoNLLU au format CONLL-U

Permet d’exporter les propriétés CQP encodant les propriétés CoNLLU. Sélectionner le corpus à exporter puis lancer la commande.

Paramètres :

conlluResultDirectory : dossier où les fichiers conllu seront écris
propertiesPrefix : préfix des propriétés CQ encodant les champs UD

Paramètres optionels :

commentaires
- insertParagraphs : les paragraphes seront codés dans les commentaires UD à partir de la structure CQP “p”
- detectGap : si activé, des commentaires “gap” seront inséré quand la propriété d’un mot CQP “gap” vaut “next”
tokens
- insertNoSpaceAfter : si activé, les paramètre “NoSpaceAfter” sont ajouté dans le MISC UD
- insertTokenWithoutUDAnnotations : si activé, les tokens sans propriétés UD renseignés seront aussi ajouté dans l’export. Sinon seul les token ayant les propriétés UD (au minimum “ID”) seront exportés.
valeurs par défaut des propriétés UD
- defaultFormPropertyName: l’export utilisera la valeur de cette propriété CQP si la propriété préfix + “form” n’est pas renseignée
- defaultFormPropertyName: l’export utilisera la valeur de cette propriété CQP si la propriété préfix + “lemma” n’est pas renseignée
- …
phrases :
- openingPunct : option de correction des débuts de phrases. Lorsque la forme du premier token d’une phrase match, il est déplacé dans la phrase précédente

10.3.6 Autres outils d’importation d’informations syntaxiques CoNLL-U ou TIGER

10.3.6.1 Importation d’un corpus au format TIGER

[TODO SLH à vérifier + terminologie ‘XML-TS’, etc.]

Le module peut importer des sources TIGER-XML sous deux formes différentes :

soit un fichier corpus.xml et plusieurs fichiers subcorpus.xml. Il est disponible à coté des autres modules dans le menu Fichier > Import > XML-TIGERSearch.
soit un fichier TIGER-XML complet par texte sans fichier driver ; un fichier driver par défaut sera généré.

Le module crée un corpus CQP à partir des noeuds terminaux des fichiers TIGER-XML et un corpus TIGER (qui sera utilisé pour résoudre les requêtes TIGER).

Le corpus CQP créé contient :

un “text” par fichier subcorpus du XML-TS dont l’identifiant est extrait du fichier master
- si un fichier metadata est présent dans le répertoire des sources, les metadonnées sont injectées dans le corpus CQP.
une structure “s” par sentence TIGER
un mot par noeud terminal dont les propriétés sont extraites directement des features des noeuds terminaux (T)

10.3.6.2 Corpus exemple PROFITEROLE-GOLD-V1-0_tiger-xml pour l’import TIGER

Télécharger le corpus depuis PROFITEROLE-GOLD-V1-0_tiger-xml.zip

Lancer le module d’import Fichier > Importer > Corpus > CoNLL-U + CSV sur le répertoire PROFITEROLE-GOLD-V1-0-tiger-xml/tiger-xml et nommer le corpus “PROFITEROLE-GOLD-V1-0”.

10.3.6.2.1 J’ai déjà des propriétés UD dans mon corpus

Dans le cas où les mots d’un corpus portent déjà des informations UD dans les propriétés CQP (avec un import XML/w par exemple, pour que les commandes liées à UD soient actives, il faut régler un prefix UD pour que les outils de TXM utilisent les bonnes propriétés.

Par défaut, les outils utilisent les propriétés préfixées par “ud-” :

ud-id
ud-form ou word si ud-form n’est pas présent
ud-lemma (optionel)
ud-upos (optionel)
ud-xpos (optionel)
ud-feats (optionel)
ud-head (optionel)
ud-deprel (optionel)
ud-deps (optionel)
ud-misc (optionel)

Un autre préfixe peut être indiqué avec la commande Edition > CoNLLU Corpus preferences du menu principal disponible lorsque le corpus est sélectionné dans la vue corpus.

10.3.6.3 Importation d’annotations syntaxiques dans un corpus existant

Ce tutoriel présente la procédure d’ajout d’annotations syntaxiques à un corpus importé avec le module “XML TEI Zero + CSV”. Il est ainsi possible de combiner les avantages du balisage TEI (structuration du des documents, apparat critique, éditions personnalisées…) avec l’annotation syntaxique.

10.3.6.3.1 Pré-requis

Annotations syntaxiques au format CONLL-U synchronisées avec le fichiers XML-TEI TXM du corpus
- la jointure se fait par la présence dans la colonne MISC (10) de l’annotation XmlId=w\_textId\_wordN qui correspond à l’identifiant du mot (w/@*:id) dans les fichiers XML-TEI TXM
et/ou Annotations syntaxiques au format TIGER-XML

Exemple de synchronisation : - Fichier XML TEI TXM xml <w id="w_AlexisProlRaM_1"> <txm:form>Ici</txm:form> <txm:ana resp="#src" type="#cattex-pos">ADVgen</txm:ana> </w>

Fichier CONLL-U

1   Ici ici ADV ADVgen  _   2   advmod  _   XmlId=w_AlexisProlRaM_1

Fichier TIGER-XML

xml <t id="s1_1" word="Ici" pos="ADV" mor="_" lemma="ici" textid="StAlexis_1050_verse" editionId="w_AlexisProlRaM_1"/>

10.3.6.3.2 Annoter en syntaxe un corpus TXM

L’opération la plus simple consiste à : - Exporter son corpus au format CoNLL-U : menu Fichier > Exporter > Corpus > au format CoNLL-U - Appliquer son outils d’annotation préféré ou avec l’un des outils répertorié sur le site d’Universal Dependencies - Importer les annotations en suivant les instructions de la section suivante

10.3.6.3.3 Importation au format CoNLL-U

Charger la version du corpus PROFITEROLE-GOLD-V1-0 sans annotations syntaxiques PROFITEROLE-GOLD-V1-0_nosynt.txm
Télécharger et extraire l’archive des annotations au format CONLL-U PROFITEROLE-GOLD-V1-0_conllu.zip
Créer un dossier “Annotations” dans le répertoire de travail et décompresser l’archive téléchargé dans ce dossier
Dans TXM, sélectionner le corpus “PROFITEROLE-GOLD-V1-0”
Lancer l’importation avec la commande Fichier > Importer > Annotations > Import CONLL-U Annotations from directory... avec les paramètres suivants :
- conlluDirectory : sélectionner le répertoire Annotations/conllu
- propertiesPrefix : ud-
- udPropertiesToImport : form,lemma,upos,xpos,feats,head,deprel,deps
- overwrite_cqp_properties : (non coché)
- normalize_word_ids : (non coché)
- headPropertiesToProject : deprel,upos
- depsPropertiesToProject : deprel, upos
Attendre la fin de l’injection des annotations (ça peut prendre quelques minutes)
- Un message “TXM 0.8.2 Ne répond pas” peut s’afficher pendant le processus, il faut l’ignorer ou cliquer sur “Attendre”
Sélectionner le corpus PROFITEROLE-GOLD-V1-0 et lancer la commande “Informations”
- les annotations syntaxiques doivent apparaître comme de propriétés de mots portant le préfixe UD “ud-”
Faire un index de requête CQL : [ud-deprel="root"] (têtes de toutes les phrases)
Visualiser les arbres syntaxiques (UD) des phrases du corpus :
- commande “Arbres syntaxiques” (icone knitr::include_graphics(“images/manuel-extension-annotation-syntaxique/synttrees-icon.png))

10.3.6.3.4 Importation au format TIGER-XML

Télécharger l’archive des annotations au format TIGER-XML PROFITEROLE-GOLD-V1-0_tiger-xml.zip
Extraire l’archive dans le répertoire “Annotations” créé lors de la recette précédente.
- Attention : dû à un bug, le chemin du répertoire ne doit pas contenir d’accent dans son nom (voir #2869) et il faut que le dossier se trouve sur un disque local (et non sur un “disque réseau”).
Sélectionner le corpus “PROFITEROLE-GOLD-V1-0”
Lancer l’importation avec la commande “Fichier > Importer > Annotations > Importer des annotations TIGERSearch”
- Dans la boite de dialogue, sélectionner le répertoire ‘Annotationq/tiger-xml’ des fichiers TIGER-XML.
Valider et attendre la fin de l’import des annotations
Faire une concordance de la requête TIGER
- commande “Concordance”, sélectionner “TIGER” dans la liste déroulante avant le champ de requête (icone knitr::include_graphics(“images/manuel-extension-annotation-syntaxique/searchenginesicon.png) à côté de l’Assistant de requête)
- vérifier que la ponctuation est bien présente dans les contextes
- faire un retour au texte et vérifier que la ponctuation est bien présente > #pivot:[pos=“VERB”] & > #clause:[cat=“root” & type=“VFin”] & #clause >L #pivot & #clause > >D #obj:[cat=(“obj”|“ccomp”|“obj:advneg”|“obj:advmod”)] & > #clause >D #suj:[cat=(“nsubj”|“csubj”)] & #obj >L #objhead:[] & > #suj >L #sujhead:[] & #objhead .* #pivot & #pivot .* #sujhead
Visualiser les arbres syntaxiques correspondant à la requête TIGER ci-dessus
- commande “Arbres syntaxiques” (icone knitr::include_graphics(“images/manuel-extension-annotation-syntaxique/synttrees-icon.png))
Comparer les résultats, attention la concordance affiche une ligne par sous-graphe TIGER.

10.4 Extension « Media Player »

L’extension « Media Player » permet de jouer un extrait de vidéo ou d’audio depuis TXM.

L’extrait peut correspondre à la totalité d’un fichier ou d’un flux média ou à un extrait définit par une commande de TXM, comme les commandes Concordances ou Édition, à partir d’une transcription d’enregistrement.

Dans le deuxième cas il s’agit d’un « retour à la source » spécialisé pour les corpus multimédia, complémentaire au « retour au texte » classique (de la transcription).

10.4.1 Retour à la vidéo ou à l’audio depuis le résultat d’une commande TXM

Cette fonctionnalité est disponible pour les corpus de transcriptions d’enregistrements compatibles avec l’extension Media Player, comme le corpus exemple « P1S8 ».

La section 10.4.6 « Création d’un corpus de transcriptions compatible avec l’extension Media Player » présente les différents moyens d’en créer.

10.4.1.1 Depuis une concordance

Le retour à la vidéo ou à l’audio est opéré soit :

depuis le menu contextuel d’une ligne de concordance (clic droit) en lançant la commande « Jouer le média »
en sélectionnant une ligne de concordance puis en saisissant le raccourcis clavier « Ctrl-Màj-M »

Dans les deux cas, le passage contenant le pivot de la ligne est joué dans le lecteur multimédia intégré à TXM (la section 10.4.4 « Stratégies de construction d’empans de lecture » présente les différentes options de réglage des caractéristiques du passage).
Si l’édition de la transcription était déjà ouverte, le lecteur vidéo s’ouvre à côté de la transcription :

Figure 10.3: Retour à la vidéo d’une transcription automatique des commentaires d’un sujet des Actualités Françaises du 30 janvier 1968.

10.4.1.2 Depuis une édition

Le retour à la vidéo ou à l’audio est opéré soit :

depuis les boutons de lecture « ♫ » situés en début de section, de tour ou d’énoncé
depuis une sélection de mots, pour les transcriptions synchronisées aux mots près :
1. sélectionner les mots de la transcription dont on veut visualiser/écouter l’enregistrement
2. depuis le menu contextuel (clic droit) lancer la commande « Jouer le média »

En cas d’erreur de lecture de la vidéo ou de l’audio, un message de diagnostic est affiché dans la console de TXM.

10.4.1.3 Barre d’outils du lecteur multimedia

Figure 10.4: Barre d’outils du lecteur multimédia.

La barre d’outils est composée des élements suivants :

bouton « PAUSE/REPRENDRE » : suspendre la lecture / reprendre la lecture
bouton « STOP » : arrêter la lecture
indication de position « 04:57 » dans le média (minutes:secondes)
curseurs de lecture dans la durée totale de l’enregistrement :
1. début de l’empan joué
2. position de la lecture
3. fin de l’empan joué
option « Répéter » la lecture de l’empan en boucle
option « Vit » : curseur de réglage de la vitesse de lecture, de 40% (x0,4) à 140% (x1,4) de la vitesse originale de lecture de l’enregistrement
option « Vol » : curseur de réglage du volume de lecture, de 0% à 100% du volume de lecture

10.4.2 Lecture directe d’enregistrement vidéo ou audio

La commande « FichierOuvrir un fichier média… » permet de jouer un fichier vidéo ou audio directement à partir :

d’un dossier local, se trouvant sur la machine exécutant TXM : cliquer sur le bouton « […] » pour naviguer jusqu’au fichier ;
d’une adresse web : par exemple https://mp4studio.ina.fr/lire/0tfeS_XRwVxMA3VJB7CXLDWJBONpLnXPltMy6DE_1RC13c0hsEhDetDCIEvUS4d-ZnXnaOEsNoF7OuI_-hC1lelZqwlrLC-KzVjJcsiKoYRgbO4s0S39Xz9ttoiRbzwA_Qas0jEc5ib4bnPlszIFuBw⁵⁸. Copier/Coller l’adresse dans le champ « Saisir le chemin de fichier ou l’adresse web (URL) ».

10.4.3 Paramètres généraux du lecteur multimedia

Les paramètres sont modifiables dans la page de préférences « TXMUtilisateurMedia PLayer » :

Figure 10.5: Paramètres du lecteur multimedia.

Répéter la lecture :
lecture de l’empan en boucle
BackToMedia position :
emplacement du lecteur à l’ouverture, par rapport à la fenêtre de concordance ou à la fenêtre d’édition, soit :
- « ABOVE » : au dessus
- « BELOW » : sous
- « LEFT_OF » : à gauche
- « RIGHT_OF » : à droite (emplacement par défaut)
Stratégie de construction de l’empan à jouer :
- « Word » : à partir de propriétés de mots
- « Structure » : à partir de propriétés d’une structure
- « Milestone » : à partir d’une propriété de structure
  voir le détail des stratégies à la section suivante.

10.4.4 Stratégies de construction d’empans de lecture

Ces paramètres sont réglés dans la section « Empan à jouer » des préférences « TXMUtilisateurMedia PLayer ».

10.4.4.1 Word

L’empan est construit à partir de positions de mots dans l’enregistrement, encodées dans une propriété des mots, du n^ième mot à gauche au m^ième mot à droite autour du mot pivot :

Propriété de mot de temps : nom de la propriété encodant la position du (début du) mot dans l’enregistrement, « time » par défaut
Left length : position du mot dans le contexte gauche du pivot, « 10^ème » mot par défaut
Right length : position du mot dans le contexte droit du pivot, « 15^ème » mot par défaut

10.4.4.2 Structure

L’empan est construit à partir de positions de début et de fin d’une structure dans l’enregistrement :

Structure : « sp » (tour de parole) par défaut
Propriété codant le temps de départ : « start » par défaut
Propriété codant le temps de fin : « end » par défaut

Pour une sélection de mots, TXM utilise la structure qui domine la position du premier mot de la sélection.

10.4.4.3 Milestone

L’empan est construit à partir d’une position de début d’une structure dans l’enregistrement :

Structure : « u » (énoncé) par défaut
Propriété codant le temps de départ : « start » par défaut

Pour une sélection de mots, TXM utilise le temps de début de la structure qui précède la position du premier mot et le temps de début de la structure qui suit la position du dernier mot de la sélection.

10.4.5 Paramètres de corpus du lecteur multimedia

Le lecteur multimédia utilise certains paramètres de corpus s’ils sont présents.
Ils ont priorité sur les paramètres généraux du lecteur, qui sont modifiables dans la page de préférences.

Pour visualiser les paramètres d’un corpus relatifs au lecteur multimédia :

d’abord sélectionner le corpus dans la vue Corpus
ensuite lancer la commande « ÉditionPréférences Média Player » :

Figure 10.6: Paramètres de corpus pour le lecteur multimédia.

Paramètres généraux

Une première série de paramètres de corpus permet de régler au corpus près les paramètres généraux du lecteur multimédia (voir leur description à la section ??).

Il s’agit des huit premiers paramètres de la figure 10.6.

Le tableau 10.2 liste la correspondance entre ces paramètres de corpus et les paramètres généraux du lecteur multimédia :

Tableau 10.2: Table Correspondance entre les paramètres de corpus pour le lecteur multimédia et les paramètres généraux du lecteur multimédia.
Paramètres de corpus pour le lecteur multimédia	Paramètres généraux du lecteur multimédia	Valeur par défaut	Modifiable
`backtomedia_loop`	`Répéter la lecture`	`true`	oui
`backtomedia_startproperty`	`Propriété codant le temps de départ`	`starttime`	non
`backtomedia_endproperty`	`Propriété codant le temps de fin`	`endtime`	non
`backtomedia_structure`	`Structure`	`sp`	oui
`backtomedia_wordtime_property`	`Propriété de mot de temps`	`starttime`	non
`backtomedia_word_context_left_distance`	`Left length`	`12`	oui
`backtomedia_word_context_right_distance`	`Right length`	`17`	oui
`sync_mode`	`Stratégie de construction de l’empan à jouer`	`Structure`	oui

Les paramètres de corpus pour le lecteur multimédia ont vocation à être livrés avec le corpus pour une utilisation optimale du lecteur multimédia.

Certains de ces paramètres peuvent être modifiés en fonction des besoins d’utilisation du corpus par l’utilisateur, ils sont marqués par « oui » dans la colonne « Modifiable » :

sync_mode
backtomedia_word_context_left_distance
backtomedia_word_context_right_distance
backtomedia_structure
backtomedia_loop

Pour modifier leur valeur il suffit de cliquer dans la cellule de valeur et de la modifer, puis enregistrer en cliquant sur « OK ».

Il est recommandé de ne pas modifier les autres paramètres de corpus relatif au lecteur multimédia, au risque que le retour à la vidéo ou à l’audio ne fonctionne plus.

10.4.5.1 Paramètres d’accès aux fichiers médias

Une deuxième série de paramètres de corpus permet de configurer la façon avec laquelle le lecteur multimédia accède aux fichiers médias des transcriptions d’un corpus.

Il s’agit des quatre derniers paramètres de la figure 10.6.

Stratégie d’accès aux fichiers média par défaut

Par défaut, le lecteur multimédia cherche le fichier vidéo ou audio associé à une transcription d’un corpus dans le dossier $TXMHOME\corpora<identifiant corpus>\media.

Le chemin d’accès à ce dossier est donc construit à partir de l’identifiant du corpus (<identifiant corpus>).

Le nom du fichier média lui-même est construit à partir de l’identifiant de la transcription, soit <text@id>.<extension>. C’est à dire la valeur de la métadonnée id de la structure text correspondant à la transcription, soit le nom du fichier source de la transcription sans son extension, suivie d’une extension de fichier média.

Selon le type de média, l’<extension> prend la valeur : - « .mp4 » ou « .avi » ou « .mov » pour les fichiers vidéos ; - « .mp3 » ou « .ogg » ou « .wav » pour les fichiers audio.

Le chemin d’accès complet par défaut au fichier média d’une transcription est donc $TXMHOME\corpora<identifiant corpus>\media<text@id>.<extension>.

Il est construit à partir de deux informations :

l’identifiant du corpus : <identifiant corpus> ;
l’identifiant de la transcription <text@id>.

Configuration de la stratégie d’accès aux fichiers média

Un groupe de paramètres de corpus permet de gérer différentes configurations d’accès aux fichiers média :

en désignant un dossier local précis pour les fichiers média ;
en désignant un site web distant hébergeant les fichiers média en ligne avec accès direct ou avec contrôle d’accès par connexion par identifiant/mot de passe.

Ces paramètres sont à régler de façon combinée :

media_path_prefix :
c’est en donnant une valeur à ce paramètre que l’on configure un accès aux fichiers média différent de la stratégie d’accès par défaut. la valeur peut être :
- 1. un chemin relatif de dossier local (à la machine) :
    par exemple mon-corpus\media, les fichiers média utilisés auront le chemin mon-corpus\media<text@id>.<media_extension>
- 1. un chemin absolu de dossier local :
    par exemple C:\Users<identifiant utilisateur>\corpus\mon-corpus\media, les fichiers média utilisés auront le chemin C:\Users<identifiant utilisateur>\corpus\mon-corpus\media<text@id>.<media_extension>
- 1. le préfixe d’une adresse⁵⁹ de site web pour un accès direct à des fichiers média hébergés en ligne :
    par exemple https://mp4studio.ina.fr/lire/, les fichiers média auront le chemin https://mp4studio.ina.fr/lire/<text@id>.<media_extension>
- 1. le préfixe d’une adresse de site web pour un accès avec contrôle d’accès, avec connexion par identifiant et mot de passe, à des fichiers média hébergés en ligne :
    dans ce cas :
  - le préfixe doit comprendre deux mots-clés, encadrés d’accolades ({..}) :
    - {0} sera remplacé par l’identifiant de connexion
    - {1} sera remplacé par le mot de passe par exemple https://{0}:{1}@okapi.ina.fr/antract/Media/AF/, les fichiers média auront le chemin https://<identifiant de connexion>:<mot de passe>@okapi.ina.fr/antract/Media/AF/<text@id>.<media_extension>
media_auth :
choix du mode d’accès direct ou avec contrôle d’accès par connexion.
- la valeur true provoque l’ouverture d’une boite de dialogue de saisie des identifiant et mot de passe de connexion lors du premier accès à un fichier média. dans ce cas, le paramètre media_path_prefix doit être de type d) (voir ci-dessus)
- la valeur false correspond aux modes d’accès directs : type a), b) et c), aucune boite de dialogue de connexion n’est ouverte
media_auth_login : (paramètre optionnel) identifiant de connexion à utiliser dans la boite de dialogue de saisie des identifiant et mot de passe de connexion.
le champ « identifiant » sera pré-rempli avec la valeur de ce paramètre.
remarque : les identifiants de connexion étant des éléments de sécurité, il peut être plus sûr de ne pas utiliser ce paramètre dans certains contextes. pour des raisons de sécurité, le mot de passe ne peut pas faire partie des paramètres d’un corpus.
par contre, il n’est à saisir qu’une seule fois pour l’ensemble de la session TXM (il n’est à saisir que lors de la première demande d’accès à un fichier média).
media_extension :
extension de fichier à utiliser pour les fichiers média.
par exemple :
- « .mp4 » pour des fichiers vidéos
- « .mp3 » pour des fichiers audio

Configurations types

En résumé, voici des exemples de configurations types :

accès local à des vidéos
- media_path_prefix : C:\Users<identifiant utilisateur>\corpus\mon-corpus\media
- media_auth : false
- media_auth_login : (vide)
- media_extension : mp4
accès distant sans connexion à des vidéos
- media_path_prefix : https://mp4studio.ina.fr/lire/
- media_auth : false
- media_auth_login : (vide)
- media_extension : mp4
accès distant avec connexion à des vidéos
- media_path_prefix : https://{0}:{1}@okapi.ina.fr/antract/Media/AF/
- media_auth : true
- media_auth_login : <identifiant utilisateur>
- media_extension : mp4

10.4.6 Création d’un corpus de transcriptions compatible avec l’extension Media Player

Le module d’import « XML Transcriber + CSV » permet de créer des corpus compatibles avec l’extension Media Player.

10.4.6.1 Méthode 1. Ajouter des fichiers média dans les sources du corpus

Il faut d’abord équiper le dossier des sources avec les fichiers média :

créer une dossier « media » dans le dossier des sources.
y ajouter un fichier média par transcription, en utilisant comme nom de fichier l’identifiant de la transcription (<text@id>) avec une extension média : comme « .mp4 » pour des fichiers vidéos ou « .mp3 » pour des fichiers audio. Par exemple, ajouter le fichier vidéo « transcription01.mp4 » correspondant à la transcription « transcription01.trs ».

À l’exécution du module d’import, le dossier « media » sera transféré dans le corpus binaire (de chemin $TXMHOME/corpora/<identifiant corpus>/media), ce qui permettra à la stratégie par défaut d’accès aux fichiers média de fonctionner directement.

10.4.6.2 Méthode 2. Ajouter des fichiers média dans le corpus binaire

Si les fichiers média sont trop lourds à manipuler pour l’opération précédente, il est possible de ne pas équiper le dossier des sources en amont du module d’import.

Dans ce cas on pourra créer soi-même le dossier $TXMHOME/corpora/<identifiant corpus>/media dans le corpus binaire après import, et y déposer les fichiers médias avec le même format que décrit précédemment.

Pour TXM il n’y aura pas de différence entre des fichiers média copiés depuis les sources et des fichiers médias déposés dans le corpus binaire après import.

10.4.6.3 Méthode 3. Configurer les paramètres d’accès aux fichiers médias du corpus

Si on souhaite utiliser un mode d’accès aux fichiers média différent de la stratégie d’accès par défaut, il suffit de n’importer que les transcriptions avec le module d’import « XML Transcriber + CSV ».

On pourra ensuite modifier les paramètres d’accès aux fichiers médias du corpus créé en suivant les instructions de la section 10.4.5.1 « Paramètres d’accès aux fichiers médias ».

Dans ce cas, quand on exporte le corpus pour le transférer, il faudra bien faire attention à ce que le TXM qui chargera le corpus ai bien accès aux fichiers média au moment de l’utilisation du corpus. Pour un accès distant par site web cela se fera automatiquement.

10.4.7 Corpus exemple P1S8 prêt à l’emploi

TBD

Le corpus exemple P1S8 4 avril 2014, transcription et enregistrement d’un cours de physique en Lycée (cours sur la lumière), est directement utilisable avec l’extension Media Player.

Exemple de mise en oeuvre :

télécharger puis charger le corpus binaire ’P1S8-2023-06-23.txm’ dans TXM
lancer la concordance de ’néon’
faire un retour au média avec la commande “Jouer le media” depuis le menu contextuel de la la 2ième ligne de la concordance

P1S8-30-avril-2014-trimmed, P, 0:00:22 si vous faites taper la lumière d'un néon sur un CD vous ne verrez pas toutes les couleurs de l'

10.5 Extension « XML Editor »

TBD

L’extension « XML Editor » ajoute un éditeur de fichiers XML à TXM[93].

Cet éditeur se lance actuellement sur un fichier pré-existant sur le disque dur, avec la commande « Fichier / Ouvrir un fichier XML… ».

10.5.1 Services du mode syntaxique XML

10.5.1.1 Repérage au sein de la syntaxe XML

Colorisation

Les différents éléments XML sont mis en évidence par une couleur propre pour faciliter le repérage ainsi que la détection d’erreurs de syntaxe :

<nom de balise> vert turquoise
nom d’attribut= violet
“valeur d’attribut” bleu foncé
<!– commentaires –> bleu clair
etc.

Par exemple :

une valeur d’attribut mal fermée « <span style=“… » provoquera une colorisation bleue du reste de la ligne ;
un commentaire XML mal fermé « <!– … » provoquera une colorisation bleu clair du reste du fichier.

Les couleurs sont paramétrables dans les préférences de TXM, voir plus bas.

Position dans l’arbre XML

L’enchâssement courant du curseur au sein de la hiérarchie des balises est indiqué par un chemin de fer situé en bas à gauche de la fenêtre de TXM.

Fermeture de portions d’arbre

Des boutons de fermeture/ouverture (⊖/⊕) situés en début de ligne de chaque balise ouvrante permettent de réduire temporairement tout le contenu de l’élément.

10.5.1.2 Saisie assistée d’éléments XML

En fonction du schéma ou de la DTD éventuelle du fichier, de la position du curseur et de ce qui vient d’être saisi, l’éditeur propose automatiquement de compléter la saisie.

Par exemple :

l’ajout de la balise fermante après la saisie d’une balise ouvrante ;
l’ajout du guillemet fermant une valeur d’attribut ;
la complétion du nom d’une balise fermante ;
etc.

Le copier/coller d’éléments XML est accéléré par une sélection par double-click successifs :

1 double-click = sélection de la totalité d’une valeur d’attribut ;
2 double-clicks successifs = sélection du nom de l’attribut et de sa valeur ;
3 double-clicks successifs = sélection de l’ensemble de la balise ouvrante.

L’éditeur gère un jeu de patrons récurrents de balises à insérer rapidement.

10.5.1.3 Formatage automatique

L’éditeur peut :

indenter automatiquement l’ensemble des balises du document ou seulement la portion sélectionnée → commande « Source > Format » du menu contextuel ;
« nettoyer le document » en corrigeant automatiquement la syntaxe XML → commande « Source > Cleanup Document… » du menu contextuel.

10.5.1.4 Validation de la syntaxe

Commande « Validate » du menu contextuel (à décrire).

10.5.2 Gestion des déclarations XML

10.5.2.1 Association d’une DTD à un fichier XML

Il est possible, mais pas nécessaire, d’associer une DTD au fichier en cours d’édition.

Dans un fichier XML, la déclaration suivante :

<!DOCTYPE balise-racine PUBLIC “IdDoc” “C:\mesdtd\Doc.dtd”>

associera la DTD d’identifiant public « IdDoc » au fichier.

Le chemin d’accès au fichier de DTD est obtenu par le biais du catalogue XML s’il définit l’identifiant « IdDoc » ou directement à partir de la déclaration du chemin d’accès « C:\mesdtd\Doc.dtd ».

On peut également réaliser l’association avec la déclaration suivante :

<!DOCTYPE balise-racine SYSTEM “IdDoc.dtd”>

associant la DTD d’identifiant système « IdDoc.dtd » au fichier. L’identifiant système « IdDoc.dtd » doit alors être déclaré dans le catalogue XML.

10.5.2.2 Association d’un schéma à un fichier XML

Dans un fichier XML, la déclaration suivante :

<document xmlns=“http://txm.org”> > xsi:schemaLocation=“http://textometrie.org/ > C:\messchemas\document.xsd”>
> <corps>
> …

indiquera le chemin d’accès au fichier de schéma XML directement au processeur XML par le biais de l’attribut xsi:schemaLocation.

On peut également réaliser l’association avec la déclaration suivante :

<document

xmlns=“http://txm.org”

xsi:schemaLocation=“http://textometrie.org document.xsd”>
<corps>
…

associant le schéma d’identifiant système « document.xsd » au fichier. L’identifiant système « document.xsd » doit alors être déclaré dans le catalogue XML.

10.5.2.3 Accès distant aux DTD et schéma XML

Dans le cas d’une déclaration distante comme :

<!DOCTYPE balise-racine PUBLIC “IdDoc” “http://textometrie.org/xml/catalog/dtd/Doc.dtd”>

Si vous êtes connecté à Internet par le biais d’un pare-feu et que vous ne pouvez pas établir votre configuration SOCKS, vous devez télécharger les fichiers vous-même et les installer sur votre machine, puis utiliser des déclarations locales.

10.5.2.4 Resynchronisation de l’éditeur XML après une mise à jour du catalogue XML

Après avoir édité des entrées dans le catalogue XML, vous pouvez avoir à resynchroniser l’éditeur XML avec la nouvelle version du catalogue en utilisant le bouton « Reload Dependencies » de la barre d’outils.

10.5.3 Paramétrage de la colorisation des balises XML

Il est possible de régler le style d’affichage des différents types d’éléments XML par le biais des préférences « XML > XML Files > Editor > Syntax coloring ». Pour chaque type d’élément, il est possible de choisir sa couleur d’affichage, celle de son arrière plan ainsi que sa mise en gras éventuelle. Pour rétablir le style par défaut d’un type d’élément, on peut le sélectionner dans le champ « Syntax Element » et cliquer sur « Restore Default ».

Voir aussi la page wikipedia d’Universal Dependencies ↩︎
CoNLL-U est le format de fichier utilisé par le projet Universal Dependencies (fichiers d’extension ’‘.conllu’ pour TXM). Chaque mot y est encodé sur une ligne et chaque colonne encode une information syntaxique particulière : numéro du mot dans la phrase, mot gouverneur, relation de dépendance au gouverneur, etc.↩︎
La phrase syntaxique est déterminée par l’analyse syntaxique (autour du mot racine) alors que la phrase orthographique est déterminée par la ponctuation forte ou l’encodage XML. Selon le corpus, ces informations peuvent ne pas correspondre.↩︎
les propriétés ud-upos et ud-lemma sont indépendantes des propriétés frpos et frlemma calculées par TreeTagger.↩︎
identique à word dans le cas d’un import CoNLL-U+CSV.↩︎
par exemple, les valeurs de l’attribut @id des éléments <w> lors des importations d’annotations syntaxiques (e.g. XmlId=w_text-id_325).↩︎
nous cherchons la forme car son lemme peut parfois être complexe dans les treebanks UD (eg ‘il’, ‘le’ et ‘lui’ dans UD-French-PUD).↩︎
le corpus PROFITEROLE-GOLD ne contient que des nsubj, mais les corpus en français contemporain (comme UD-French-PUD) contiennent d’autres fonctions : obj, iobj, obl… >[AL : C’est parce que la forme la plus fréquente est “nos”. J’ai modifié la requête, mais il faut voir ce qui est plus intéressant… On peut chercher “que” qui marche aussi bien pour le français moderne et ancien]↩︎
Le début du blocus de Berlin, Les Actualités Françaises, 15 juillet 1948, INA.↩︎
une URL : Uniform Ressource Locator.↩︎