Utilisez l’anti-mot pour extraire le texte des fichiers .doc
Je sais ce que vous pensez: « Pourquoi ne pas simplement utiliser OpenOffice pour obtenir le texte dont vous avez besoin? » Il y a une bonne raison. Si vous avez déjà utilisé un traitement de texte pour obtenir du texte brut d’un autre, vous savez que la mise en forme est souvent laissée pour compte. Les caractères de fin de ligne, etc. peuvent continuer à poser un problème lors du copier-coller de texte d’une source à une autre (en particulier lors du passage d’un fichier .doc à un point de terminaison html.) Cela m’a causé de nombreux problèmes lorsque j’ai écrit des articles hors ligne pour être collé dans, par exemple, des ghacks. J’ai vu des chaînes de formatage laissées pour ne plus avoir à revenir en arrière et à les supprimer.
Lors de l’extraction de texte avec un outil tel que anti-mot vous n’aurez pas ce problème. Et même si antiword est un outil de ligne de commande uniquement, il n’est pas compliqué à installer ou à utiliser. Avec cet outil, vous pouvez extraire le texte immédiatement vers la sortie standard (la fenêtre du terminal) ou vous pouvez l’extraire en texte. Les deux méthodes sont simples, les deux sont efficaces.
Installation d’anti-mot
L’installation d’anti-mot peut se faire de deux manières: ligne de commande ou interface graphique. Si vous souhaitez utiliser l’interface graphique, lancez votre utilitaire Ajout / Suppression de logiciels, recherchez anti-mot, sélectionnez les résultats et cliquez sur Appliquer. Vous voudrez également installer catdoc, qui peut être installé avec la même méthode.
Si vous êtes partiel à la ligne de commande, vous pouvez ouvrir une console et émettre une commande similaire à:
sudo apt-get installer antiword catdoc
yum installer antiword catdoc
L’un de ceux-ci est sûr d’installer les applications sur votre machine.
Maintenant, comment cet outil est-il utilisé?
Utilisation de base
La structure de base de la commande anti-mot est:
antiword [OPTIONS] file.doc
Lorsque la structure de commande ci-dessus est utilisée, vous verrez le texte du fichier .doc défiler dans la fenêtre de la console. Les options ne sont pas nombreuses, mais sont utiles:
-a [PAPERSIZE] Sortie au format Adobe PDF. Vous devez spécifier la taille du papier pour le document. Les formats de papier valides sont: a3, a4, a5, b4, b5, exécutif, folio, juridique, lettre, note, quarto, déclaration ou tabloïd.
-f Sortie sous forme de texte formaté. Cela imprimera audacieux texte comme * gras *, italique comme / italics /, et soulignétexte comme _ souligné_.
-i Ceci définit le niveau de l’image. 0 = utiliser des extensions Ghostscript non standard. 1 = Aucune image. 2 = Niveau PostScript 2. 3 = Niveau PostScript 3.
-m Quel fichier de mappage Unicode utiliser. Vous pouvez trouver une liste des fichiers de mappage disponibles dans / usr / share / antiword.
Donc pour voir le texte de file.doc vous émettriez la commande:
anti-mot -f fichier.doc
ce qui ferait rapidement défiler le contenu du fichier dans la fenêtre de la console. Pas beaucoup d’aide sauf si vous avez besoin de copier et de coller le dernier bit – ou vous pouvez maximiser la console pour voir tout le texte. Au lieu de cela, vous pouvez envoyer le texte dans un fichier comme ceci:
anti-mot -f fichier.doc> fichier.txt
Ce texte peut maintenant être visualisé avec la commande:
moins file.txt
Format PDF
Supposons que vous souhaitiez exporter le texte d’un document .doc vers un document .pdf. Croyez-le ou non, c’est aussi simple. Pour cela, vous aurez besoin du -p option ainsi que le format de papier associé. Disons que nous voulons exporter le document dans un document PDF au format lettre. Pour ce faire, exécutez la commande:
anti-mot -p lettre fichier.doc> fichier.pdf
Vous pourriez rencontrer des problèmes de mappage ici. Si vous le faites très probablement, vous devrez dire à antiword d’utiliser le mappage 8859-1 avec la commande:
anti-mot -m 8859-1 -p fichier.doc> fichier.doc
le file.doc fichier sera un document PDF lisible que vous pouvez maintenant utiliser.
Dernières pensées
De toute évidence, ce ne sont que les « os nus » de l’anti-mot. En utilisant cette commande et d’autres, vous êtes vraiment créatif et configurez des scripts d’extraction automatisés et bien plus encore. Si vous collez beaucoup dans des formats qui ne peuvent pas gérer les retours chariot ou les marques de fin de ligne, antiword est la solution parfaite pour vous.