Compter les caractères d’un fichier DOC

© Christian PAULUS. Document créé le 18 juillet 2010 , mis à jour le 21 juillet 2010.

Une personne qui n'a jamais commis d'erreurs n'a jamais tenté d'innover. Albert Einstein

Accueil du site > Astuces > MacOSX > Compter les caractères d’un fichier DOC

catdoc, strings / MacOsX 10.6 (Snow Leopard)

Compter les nombre de caractères d’un fichier DOC (Microsfot Word). Script à utiliser en ligne de commande.

La commande strings extrait tout ce qui est imprimable de n’importe quel fichier. Malheureusement, cette commande n’est pas utilisable pour analyser un fichier DOC qui contient beaucoup plus de caractères que le contenu souhaité. Enregistrez un fichier DOC vide et regardez la taille dudit fichier pour vous en convaincre.

catodc est disponible via les MacPorts, ou directement sur le site officiel de catdoc.

Le script shell doc_stats

#!/bin/sh

CATDOC="/opt/local/bin/catdoc"
TR="/usr/bin/tr"
WC="/usr/bin/wc"

# Si le terminal en utf-8, erreur...
# tr: Illegal byte sequence
# Forcer le charset
LC_CTYPE=C;export LC_CTYPE

if [ ! -n "$1" ]
then
       echo "Usage: `basename $0` fichier [fichier ...]"
       exit
fi

for f in "$@"
do
if [ -f "$f" ]
then

# tout le texte
all=`$CATDOC $f 2>/dev/null | $WC -c`

# sans les espaces
chars=`$CATDOC $f 2>/dev/null | $TR -d '[:space:]' | $WC -c`

# les mots
words=`$CATDOC $f 2>/dev/null | $WC -w`

echo "$f\t$all\t$chars\t$words"

fi
done

Ce script reste à optimiser :

  • supprimer les hyperliens rendus pas catdoc
  • supprimer les punctuations dupliquées

Comparatif AbiWord OpenOffice Word catdoc

AbiWord utilisé dans ce test est

  • 2.4.5/MacOs SL
  • -* 2.6.8/X

Word utilisé dans ce test est Microsoft Word 2003 / CrossOver / MacOsX SL.

Pour obtenir le nombre de caractères d’un fichier doc

  • via AbiWord : menu Outils > Statistiques
  • via openOffice : menu Outils > Statistiques
  • via Word : menu Fichier > Propriétés > Onglet Statistiques

Etrangement, les outils ne donnent pas le même résultat : Pour un fichier de test de 1872384 octets :

  • AbiWord 2.4.5 : 34784 caractères, 4997 mots
  • AbiWord 2.6.8 : 34791 caractères, 5168 mots
  • oOo : 87020 caractères, 13646 mots
  • Word : 86705 caractères, 13585 mots
  • catdoc : 95454 caractères, 13911 mots

Boite statistiques AbiWord 2.4.5 {PNG}

Boite statistiques AbiWord 2.6.8 {PNG}

Boite statistiques oOo {PNG}

Boite statistiques Word {PNG}

Pour un rédacteur, un traducteur, un correcteur, ce détail peut avoir son importance.

Plussoyez !

Les forums sont fermés.