Lemmatiseur du latin médiéval

Le logiciel TreeTagger, développé pour le marquage morphosyntaxique (POS - Part of Speech), permet également la lemmatisation. Nous proposons ici à la fois les paramètres nécessaires à son utilisation avec des textes en latin médiéval, et les fichiers permettant de recréer ces paramètres.

Lemmatisation

Paramètres pour la lemmatisation d'un corpus de latin médiéval, issus de la commande :

train-tree-tagger -cl 3 -dtg 0.50 -sw 1.00 -ecw 0.30 -atg 0.35 -utf8 lexicon.csv classes.txt treebank.csv mediolatin.par

Ces paramètres [PARAM] permettent d'obtenir un texte lemmatisé [LEMME] à partir d'un texte tokenisé [TOKEN] (cf. infra) par la commande suivante :

tree-tagger -token -lemma -cap-heuristics [PARAM] [TOKEN] [LEMME]

La commande tree-tagger sort par défaut la liste des POS, mais elle autorise plusieurs options, parmi lesquelles :

Apprentissage

La commande train-tree-tagger autorise plusieurs options, qu'il est vivement conseillé de tester :

Fichiers nécessaires à l'apprentissage de TreeTagger en latin médiéval

  1. Liste des POS (enregistrer la cible du lien).
  2. Liste des formes (Lexicon)
  3. Corpus d'entrainement (Treebank)

Sources complémentaires

  1. Liste de lemmes et variantes à télécharger (1Mo, v0.6, 02/2014) : environ 72 000 lignes.
  2. Script pour obtenir un texte tokenisé [TOKEN] à partir d'un texte simple [TEXTE] avec la commande : [SCRIPT] [TEXTE] [TOKEN]

Retour accueil

Valid XHTML 1.0 Transitional Licence Creative Commons
Les fichiers et les paramètres de lemmatisation du CNRS (IRHT - Lexicographie latine) sont mis à disposition selon les termes de la licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Partage dans les Mêmes Conditions 4.0 International.