Vous n'êtes pas identifié(e).
L'icône rouge permet de télécharger chaque page du wiki visitée au format
PDF et la grise au format ODT →
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente Prochaine révision Les deux révisions suivantes | ||
doc:editeurs:tesseract [02/07/2017 05:37] smolski tatouillages |
doc:editeurs:tesseract [02/07/2017 12:49] chalu [Automatisation avec des scripts] |
||
---|---|---|---|
Ligne 31: | Ligne 31: | ||
==== Images ==== | ==== Images ==== | ||
- | Pour manipuler les images : | + | Pour manipuler les images, on installe [[doc:media:imagemagick|imagemagick]] |
- | <code root>apt-get install [[doc:media:imagemagick|imagemagick]]</code> | + | <code root>apt-get install imagemagick</code> |
===== Scanner le document ===== | ===== Scanner le document ===== | ||
Ligne 40: | Ligne 39: | ||
<note tip>L'important est de choisir une résolution assez élevée de 300 à 500 dpi.</note> | <note tip>L'important est de choisir une résolution assez élevée de 300 à 500 dpi.</note> | ||
- | ==== Texte PDF ==== | + | ===== Reconnaissance du texte d'un fichier PDF ===== |
- | === Convertir === | + | ==== Convertir ==== |
On commence par convertir le fichier *.pdf en image *.png : | On commence par convertir le fichier *.pdf en image *.png : | ||
<code user>convert -density 500 PDFtest.pdf -quality 100 test.png</code> | <code user>convert -density 500 PDFtest.pdf -quality 100 test.png</code> | ||
- | IL y aura autant d'images en sortie que de pages du pdf nommé PDFtest.pdf. \\ | + | Il y aura autant d'images en sortie que de pages du pdf nommé PDFtest.pdf. \\ |
- | Les noms de ces images sera test-0.png, test-1.png ...etc | + | Les noms de ces images seront test-0.png, test-1.png ...etc |
<note>Il peut y avoir des messages d'erreurs mais cela n'empêche la reconnaissances de caractères.</note> | <note>Il peut y avoir des messages d'erreurs mais cela n'empêche la reconnaissances de caractères.</note> | ||
Ligne 66: | Ligne 65: | ||
<code user>tesseract test-1.png -l fra output2</code> | <code user>tesseract test-1.png -l fra output2</code> | ||
- | ==== Reconnaissance du texte d'une image ==== | + | ===== Reconnaissance du texte d'une image *png===== |
<note important>La taille de l'image est un élément clé pour la reconnaissance des caractères</note> | <note important>La taille de l'image est un élément clé pour la reconnaissance des caractères</note> | ||
Voir l'exemple donné dans [[https://debian-facile.org/viewtopic.php?pid=229246#p229246|ce message d'un fil du forum]] où l'on voit bien l'influence de la taille de l'image sur la reconnaissance de caractères. | Voir l'exemple donné dans [[https://debian-facile.org/viewtopic.php?pid=229246#p229246|ce message d'un fil du forum]] où l'on voit bien l'influence de la taille de l'image sur la reconnaissance de caractères. | ||
+ | ===== Automatisation avec des scripts ===== | ||
+ | On peut ajouter des actions personnalisées dans thunar qui permettent d'avoir avec un clic droit sur le fichier une entrée de menu permettant de choisir une action à réaliser sur ce fichier. | ||
+ | Le script suivant (avec tous ses défauts, c'est mon premier script 8-) ) permet d'effectuer la reconnaissance des caractères sur une image *.png et ouvre libreoffice (writer) pour lire ou modifier le texte. | ||
+ | <code> | ||
+ | #!/bin/bash | ||
+ | tesseract "$1" "${1%%.*}" -l fra | ||
+ | lowriter "${1%%.*}.txt" | ||
+ | exit 0 | ||
+ | </code> | ||
+ | Il suffit de copier coller le texte avec mousepad (ou un autre éditeur de texte) et de l'enregistrer en lui donnant par exemple le nom PNG-2-ocr-lo. Ensuite un clicl droit sur le fichier > Propriétés > Permissions pour le rendre exécutable en cochant la case ad-hoc \\ | ||
+ | Dans thunar > Editer > Configurer les actions personnaliser > clic sur le bouton pour ajouter une action. | ||
+ | On complète le nom de l'action par exemple PNG 2 OCR libreoffice et on remplit la ligne de commande avec : | ||
+ | <code>/le-chemin-qui-mène-au-script/PNG-2-ocr-lo %f</code> | ||
+ | On peut choisir une icone pour l'action. | ||
+ | Dans l'onglet "conditions d'apparition" on coche "Fichiers image" et on complète la ligne motif de fichiers avec :\\ | ||
+ | *.png;*.PNG | ||
+ | On valide et voilà. On a l'action qui est proposée sur les fichiers *.png | ||
===== Sources ===== | ===== Sources ===== |