Tokenizer

Un segmenteur de texte

Téléchargement du programme tokenizer
tokenizer

Compilation

Attention: vous avez besoin de lexed >= 4.3.3 pour compiler.
Pour installer sous unix taper
./configure [--prefix=<directory>] [--with-amalgam] [--with-composition] (./configure --help pour aide)
make
make install
make clean

Utilisation

Pour aide

tokenizer -h

Pour construire un automate

lexed [ -d <nom de répertoire> ] [ -p <nom du préfixe des fichiers > ] <lexique1> <lexique2> ...
Les lexiques contiennent sur chaque ligne le mot suivi d'un caractère séparateur (tabulation ou blanc par défaut), suivi de l'information assortie au mot.
"." est le répertoire par défaut.
"lexicon" est le préfixe de nom de fichier par défaut.

Pour configurer le segmenteur

Éditer tokenizer.ll et recompiler

Pour segmenter un document avec ce lexique

tokenizer [ -d <nom de répertoire> ] [ -p <nom du fichier> ] [ --encode ISO-8859-1 ] < inputfile > outputfile