Lecture des fichiers PDF, MSWORD, RTF, ...

© Christian PAULUS. Document créé le 20 juillet 2005 , mis à jour le 14 mars 2007.

Quand on a dix pas à faire, neuf font la moitié du chemin. Proverbe chinois

Accueil du site > Astuces > Htdig > Lecture des fichiers PDF, MSWORD, RTF, ...

Configuration / ht ://Dig 3.2.0

Lorsqu’on veut ajouter à sa base de recherche des fichiers d’un format différent d’HTML ou texte, ht ://Dig fait appel à une sorte de traducteur (un parser) qui va extraire de ce fichier les données à indexer. C’est le cas par exemple de doc2html.pl qui fait appel lui-même à d’autres programmes d’extraction.

Sous FreeBSD 5.4, les ports (/usr/ports) permettent d’installer rapidement catdoc et xpdf qui sont indispensables pour la traduction de fichiers Word et PDF. Les lignes suivantes sont à ajouter dans htdig.conf après avoir configuré doc2html.pl et pdf2html.pl.

external_parsers: application/pdf->text/html /usr/local/scripts/doc2html.pl \
application/postscript->text/html /usr/local/scripts/doc2html.pl \
application/msword->text/html /usr/local/scripts/doc2html.pl

Dans cet exemple, lorsque ht ://Dig découvre un fichier PDF, Postscript ou MSWORD (.doc), il appelle le script perl doc2html qui se charge d’appeler à son tour les traducteurs qui renverront le résultat au format texte ou HTML à ht ://Dig.

La documentation nécessaire à la configuration de doc2html est disponible dans le fichier DETAILS fourni avec la distribution.

Il existe d’autres traducteurs capables par exemple, d’extraire les données indexables de fichiers SWF (fichier Shockwave Flash), PPT (PowerPoint), WordPerfect, etc.

Plussoyez !

Les forums sont fermés.