6 Exporter et charger un corpus
TXM permet d’exporter un corpus dans un simple fichier et de le recharger, ou bien d’exporter ses textes dans une représentation standard compatible XML-TEI P5 et de les ré-importer.
6.1 Exporter et charger un corpus binaire
TXM peut exporter un corpus dans un fichier au format spécifique43 appelé « corpus binaire » et d’extension « .txm ».
Un tel fichier est facile à sauvegarder, à copier et à transmettre puis charger dans un autre TXM (sur un ordinateur différent ou dans un portail TXM, par exemple).
6.1.1 Commande Fichier \> Exporter \> Corpus en format binaire...
Sélectionner le corpus dans la vue Corpus puis lancer la commande Fichier \> Exporter \> Corpus en format binaire....
Le nom du fichier dans lequel sera sauvegardé le corpus exporté est par défaut « MONCORPUS.txm ».
6.1.2 Commande Fichier \> Charger un corpus binaire (.txm)
Cette commande prend en entrée un fichier de corpus binaire (d’extension « .txm »).
Le résultat de cette commande est un nouveau corpus dans votre vue Corpus. Cette commande est beaucoup plus rapide que celle d’import car elle n’analyse pas les sources du corpus. Il suffit de l’exécuter une seule fois pour que le corpus soit définitivement chargé dans TXM.
C’est la façon la plus simple d’ajouter n’importe quel corpus à votre TXM.
6.1.3 Commande Fichier \> Charger un dossier de corpus binaire…
Cette commande prend en entrée un dossier contenant soit :
- des fichiers de corpus binaires (d’extension « .txm ») ;
- des dossiers de corpus binaires, qui sont des versions décompressées d’archives « .txm » telles qu’on en trouve dans le dossier
$TXMHOME/corporade votre TXM.
Cette commande permet de charger simplement plusieurs corpus dans TXM ou bien de récupérer les corpus d’une installation précédente de TXM, en utilisant son dossier $TXMHOME/corpora.
6.2 Exporter les textes d’un corpus au format standard XML-TEI P5
Lors du processus d’import, tous les textes d’un corpus (quel que soit leur format d’origine) ont été encodés dans le format pivot « XML-TEI TXM »44 compatible XML-TEI P5.
6.2.1 Déterminer le lieu de stockage des fichiers pivots
Les fichiers pivots d’un corpus sont stockés dans le dossier « txm/MONCORPUS » de son dossier interne (appelé « dossier binaire »).
Suivant le système d’exploitation, le chemin du dossier « txm/MONCORPUS » est :
- Sous Windows : « C:\Utilisateurs\<identifiant utilisateur>\TXM-<version>\corpora\MONCORPUS\txm\MONCORPUS »
ou bien « C:\Documents and Settings\<identifiant utilisateur>\TXM-<version>\corpora\MONCORPUS\txm\MONCORPUS » - Sous Mac OS X : « /Users/<identifiant utilisateur>/TXM-<version>/corpora/MONCORPUS/txm/MONCORPUS »
- Sous Linux : « /home/<identifiant utilisateur>/TXM-<version>/corpora/MONCORPUS/txm/MONCORPUS ».
Une façon de déterminer ce dossier depuis votre TXM est d’ouvrir l’édition du corpus (avec la commande CorpusÉdition, après avoir sélectionné le corpus dans la vue Corpus)
et dans le menu contextuel de l’édition (accédé par le clic droit de la souris) lancer la commande Open XML file....
Cette commande ouvre dans l’éditeur de fichiers XML de TXM le fichier pivot du texte correspondant à la page sur laquelle l’édition est ouverte.
Dans le menu contextuel de l’éditeur XML, la commande Afficher dansExplorateur système
permet alors d’ouvrir le dossier contenant ce fichier, le dossier « txm/MONCORPUS » recherché, dans le navigateur de fichiers du système.
6.2.2 Usages des fichiers pivots
Il suffit de copier les fichiers .xml situés dans le dossier « txm/MONCORPUS » pour exporter l’ensemble des textes du corpus au format standard XML-TEI P5.
Ces fichiers peuvent alors être utilisés comme fichiers d’échange de sources entre partenaires, pour l’importation de sources dans d’autres logiciels ou bien pour le stockage pérenne des sources.
Ils peuvent également être ré-importés dans un TXM avec le module d’import XML-TEI Zero + CSV,
en utilisant la feuille de pré-traitement txm-front-teitxm2xmlw.xsl45 dans l’étape « 2-front »,
ou bien directement avec le module XML-TEI TXM sachant que ce dernier offre peut de contrôle sur la production des éditions.
Si besoin, les fichiers pivots peuvent être visualisés et édités depuis TXM avec son éditeur de fichiers XML intégré, ouvert avec la commande FichierÉditer....
Pour faciliter la lecture, il peut être intéressant d’indenter le contenu avec la commande SourceFormat du menu contextuel de l’éditeur.
sa structure est celle d’une archive ZIP.↩︎
le format XML-TEI TXM est une extension du format XML-TEI P5 qui représente efficacement le modèle de corpus traité par TXM : textes@métadonnées / structures@propriétés / mots@propriétés.↩︎
cette feuille de transformation redresse les mots des textes pour les rendre compatibles avec les modules d’import basés sur XML de TXM, en déplaçant les propriétés de mots des sous-éléments
<txm:ana>de<w>à leurs attributs.↩︎