Tokenizer

Un segmenteur de texte

Tokenizer permet de segmenter un texte en tokens, puis en word-forms. Les tokens correspondent à des expressions régulières et les word-forms à des entrées lexicales compilées grâce à lexed. Un word-form est une concatétation de tokens pour un mot composé. L'ambiguïté entre mots simples et mots composés est représentée grâce à un graphe direct acyclique (DAG).

Téléchargement du programme tokenizer
tokenizer

Compilation

Attention: vous avez besoin de lexed >= 4.3.3 pour compiler.
Pour installer sous unix taper
./configure [--prefix=<directory>] [--with-amalgam] [--with-composition] (./configure --help pour aide)
make
make install
make clean

Utilisation

Pour aide

tokenizer -h

Pour construire un automate

lexed [ -d <nom de répertoire> ] [ -p <nom du préfixe des fichiers > ] <lexique1> <lexique2> ...
Les lexiques contiennent sur chaque ligne le mot suivi d'un caractère séparateur (tabulation ou blanc par défaut), suivi de l'information assortie au mot.
"." est le répertoire par défaut.
"lexicon" est le préfixe de nom de fichier par défaut.

Pour configurer le segmenteur

Éditer tokenizer.ll et recompiler

Pour segmenter un document avec ce lexique

tokenizer [ -d <nom de répertoire> ] [ -p <nom du fichier> ] [ --encode ISO-8859-1 ] < inputfile > outputfile