16 Notes
1.* Pour connaître l’architecture 32 ou 64 bits de votre système Windows : voir la documentation Microsoft.
2.* Pour connaître la version du système de son Mac, il faut afficher les Informations Système à partir du menu Pomme > “A propos de ce Mac”.
3.# L’installation de TXM peut nécessiter le téléchargement de Java et de packages R à partir de sites en ligne.
4.* http://www.cis.uni-muenchen.de/\~schmid/tools/TreeTagger/Tagger-Licence
- $TXMINSTALL est le chemin du dossier d’installation de TXM : sous Windows « C:\Program Files\TXM-x.y.z », sous Mac « /Applications/TXM-x.y.z », sous Linux « /usr/lib/TXM-x.y.z »
6.* http://www.cis.uni-muenchen.de/\~schmid/tools/TreeTagger
7.* Cette architecture est conforme au standard OSGi (Alliance, 2003) : http://en.wikipedia.org/wiki/OSGi.
8.* Il peut être intéressant d’ajouter d’emblée l’entrepôt « http://download.eclipse.org/releases/oxygen » qui contient toutes les extensions de base de la plateforme Eclipse utilisée par TXM. Ces extensions étant susceptibles d’être demandées par des extensions tierces.
$HOME représente le chemin du dossier personnel de l’utilisateur.
le programme « cqpserver » est le moteur de recherche utilisé par TXM, quand il est configuré en lancement externe.
Le programme « Rserve » est le moteur statistique utilisé par TXM.
Nous verrons qu’il est possible d’ouvrir n’importe quelle zone dans une nouvelle fenêtre.
Cette zone peut-être déplacée n’importe où, grâce au gestionnaire de fenêtres.
Voir les différentes macros TXM utiles pour faire ces conversions à la section 8.2.1 page 188.
18.* Voir la macro TXT2XML pour faciliter la conversion par lot de fichiers TXT vers XML.
19.* Le « /w » dans le nom du module exprime le fait que le module interprète spécifiquement les balises XML <w>…</w> dans les sources comme encodant directement des unités lexicales (mots).
20.* La macro « ChangeEncoding » permet si nécessaire de modifier par lots l’encodage des caractères de tous les fichiers sources d’un corpus situés dans un dossier. Elle est à utiliser depuis TXM sur un dossier de sources donné, avant de procéder à l’importation du corpus. Elle est documentée dans la page de documentation des macros de TXM : https://groupes.renater.fr/wiki/txm-users/public/macros#changeencoding. Une fois les sources encodées en Unicode UTF-8, il n’est plus nécessaire de régler le paramètre d’import « Encodage des caractères ».
21.* L’algorithme de recherche de l’encodage est d’abord lancé sur l’ensemble des textes pour trouver une valeur générale. Puis texte par texte. Si un texte est trop petit ce sera la valeur générale qui sera utilisée.
22.* Le code de la langue suit le standard ISO 639-1 : http://fr.wikipedia.org/wiki/Liste_des_codes_ISO_639-1.
23.* Voir 14
24.* Voir la page de documentation des feuilles XSL préparées pour TXM : https://groupes.renater.fr/wiki/txm-users/public/xsl.
25.* Les fichiers CSV peuvent être édités et exportés avec les tableurs Calc ou Excel.
26.* Ces paramètres sont modifiables dans les préférences d’Import de TXM.
27.* Voir le consortium Unicode : http://www.unicode.org.
28.* Le format XML-TXM est une extension du format XML-TEI P5 qui représente efficacement le modèle de corpus traité par TXM : textes@métadonnées / structures@propriétés / mots@propriétés.
Voir https://fr.wikipedia.org/wiki/LibreOffice#Format_des_documents.
Le contenu des sous-dossiers éventuels sera également importé.
chaîne de caractères
entier
Éléments n’ayant pas de contenu, comme <pb/>, <lb/>, etc.
Voir la spécification du format XML-TEI TXM : https://groupes.renater.fr/wiki/txm-info/public/xml\_tei\_txm.
Voir la page de suivi du projet : https://groupes.renater.fr/wiki/txm-users/public/umr_proclac_corpus_akkadien#etape_3_facultative_mise_a_jour_de_l_edition_translitteree_affichage_des_sauts_de_lignes_et_de_traits_d_union_entre_les_syllabes.
XML Path Language (Xpath) 2.0 : http://www.w3.org/TR/xpath20.
Voir la spécification de ce format dans le wiki des développeurs de TXM : https://groupes.renater.fr/wiki/txm-info/public/xml\_tei\_txm.
Voir http://www.factiva.com.
le caractère de champ permet d’encadrer des valeurs complexes contenant notamment des espaces ou des caractères délimiteurs de colonnes.
Format d’entrée des sources d’un corpus pour les outils d’indexation du moteur de recherche CQP. Voir « The IMS Open Corpus Workbench (CWB) Corpus Encoding Tutorial », http://cwb.sourceforge.net/files/CWB_Encoding_Tutorial.pdf.
le caractère de champ permet d’encadrer des valeurs complexes contenant notamment des espaces ou des caractères délimiteurs de colonnes.
Cette dernière information n’est pas utilisée dans cette version du logiciel.
Pour les transcriptions en français, il est conseillé d’utiliser le modèle linguistique TreeTagger développé pour l’écrit et pour l’oral dans le cadre du projet PERCEO <http://www.cnrtl.fr/corpus/perceo>.
Voir TMX 1.4b Specification, http://www.gala-global.org/oscarStandards/tmx/tmx14b.html.
Obligation de citation, pas d’usage commercial, diffuser selon la même licence.
Voir l’Introduction (http://txm.ish-lyon.cnrs.fr/bfm/pdf/qgraal\_cm\_2013-07-intro.pdf), p. 21-41.
Dans l’exemple, la propriété ‘word’ désigne la forme graphique du mot.
Un double-clic sur un mot le fait basculer à droite directement.
Màj-clic gauche permet de sélectionner des lignes contiguës. Ctrl-clic gauche permet de sélectionner plusieurs lignes non contiguës.
L’expression régulière complète est : /region[text,a]:: a.text_loc=“Pompidou”& a.text_date=“.*1970”
Les requêtes complètes sont :
- [_.text_loc=“Pompidou” & _.text_date=“.*1970”]
- [_.text_loc=“de Gaulle” & _.text_date=“.*1970”]
On peut obtenir cette équation en procédant grossièrement de la manière suivante. Si il y a\(C_{F}^{f}\)manières d’obtenir f éléments parmi F et\(C_{T - F}^{t - f}\)manières de combiner les formes restantes du corpus alors il y a\(C_{F}^{f} \times C_{T - F}^{t - f}\)manières d’obtenir f fois la forme A dans un échantillon de t occurrences. Le quotient de ce nombre par le nombre de manières d’obtenir des échantillons différents de t occurrences parmi T (c’est-à-dire\(C_{T}^{t}\)) nous donne la probabilité recherchée.
Màj-clic gauche permet de sélectionner plusieurs lignes contiguës. Ctrl-clic gauche permet de sélectionner plusieurs lignes non contiguës.
d’après The CQP Query Language Tutorial, (CWB version 2.2.b90), Stefan Evert, 10 July 2005.
Toutes les classes Unicode sont décrites à la section « Unicode character properties » du manuel de PCRE.
Le développement a été financé par le projet ANR DEMOCRAT <http://www.lattice.cnrs.fr/democrat>.
le menu principal « URS » ne s’affiche que lorsqu’un corpus est sélectionné dans la vue Corpus.
Voir la section Sélection d’éléments URS pour leur description
ATTENTION : Le champ « NEW » est ajouté dans la structure, mais il n’est pas affiché dans la vue. On ne peut donc pas le corriger… Pour ce faire, il faut d’abord enregistrer les annotations puis relancer TXM. La vue sera alors rafraîchie.
langage de script empruntant les meilleurs traits de langage à Python, Ruby et Perl, et dont la sémantique repose entièrement sur celle du langage de robustesse industrielle Java - tout script Groovy est compilé à la volée vers la machine virtuelle Java afin d’être exécuté. Ce langage donne donc accès à tous les composants Java de la plateforme TXM (toutes ses classes, ses commandes, ses modules d’import, ses éditeurs, etc.) ainsi qu’à tous ses composants interfacés par Java comme CQP et R. D’autres références sur Groovy section 8.4 page 216.
le ‘\’ est nécessaire car il s’agit d’expressions régulières.
voir la documentation de référence : https://docs.oracle.com/javase/7/docs/api/java/util/regex/Pattern.html, dont la section “Summary of regular-expression constructs”.
il suffit d’ajouter autant de patterns nécessaires ’ \*([^\_\\n]+)_([^\*\\n]+)’ à la fin de l’expression pour des mots étoilés supplémentaires.
voir le paramètre dateColumnList
librairies Java du projet Apache POI <https://poi.apache.org\> manipulant les fichiers Excel.
xlsx est le format recommandé. Le traitement de fichiers .xls ne fonctionne pas toujours correctement.
<https://sharedocs.huma-num.fr/wl/?id=SgEsRAh7u2XXNpzqOobze3sm9zS2KWVJ\>
l’extension XML Editor doit être installée pour disposer de l’éditeur XML, sinon les fichiers sont ouverts dans un éditeur de texte.
si la désignation de l’élément nécessite un espace de nom, il faut déclarer l’espace de nom - le namespace - dans le paramètre ‘namespacesDeclaration’.
clic droit sur l’icone de la macro.
d’après The CQP Query Language Tutorial, (CWB version 2.2.b90), Stefan Evert, 10 July 2005.
équivalent de la stratégie ‘greedy’ des expressions régulières - voir <https://docs.oracle.com/javase/tutorial/essential/regex/quant.html\>.
équivalent de la stratégie ‘reluctant’ des expressions régulières.
<http://cran.r-project.org/web/packages/textometry/index.html\>
<http://cran.r-project.org/web/packages/textometry/textometry.pdf\>
À l’image de ce qui se fait dans MS Word au moyen des macros Visual Basic.
Aucune protection de sécurité lors de l’exécution de scripts n’a été intégrée à la plateforme TXM pour le moment, il faut donc être vigilant sur la provenance des scripts utilisés.
En Linux : /home/<identifiant de l’utilisateur>/TXM/scripts/user
Vous avez également accès à ce script en ligne, à l’adresse :
On ouvre un éditeur de texte en ouvrant un fichier de la vue Fichier ou par le menu principal “Fichier / Nouveau fichier” ou “Fichier / Ouvrir…”.
Les fichiers .jar contiennent des classes Java pré-compilées.
Les fichiers .so contiennent des fonctions natives du système d’exploitation hôte, par exemple les fonctions d’une librairie C.
Tout script Groovy est compilé en byte-code Java afin de pouvoir être exécuté.
On ouvre un éditeur de texte en ouvrant un fichier de la vue Fichier ou par le menu principal “Fichier / Nouveau fichier” ou “Fichier / Ouvrir…”.
D’après http://java.developpez.com/faq/java/?page=langage_chaine#LANGAGE_STRING_nombre_en_chaine_formatee
il s’agit d’une version augmentée de l’éditeur de texte intégré (voir section Éditer un fichier texte page 226), avec des services liés à la syntaxe XML.
Source : French TreeTagger Part-of-Speech Tags Achim Stein, April 2003 <http://www.ims.uni-stuttgart.de/~schmid/french-tagset.html>