Vous n'êtes pas identifié(e).
L'icône rouge permet de télécharger chaque page du wiki visitée au format PDF et la grise au format ODT →
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
doc:editeurs:tesseract [02/07/2017 15:47] smolski [Automatisation avec des scripts] |
doc:editeurs:tesseract [20/12/2023 09:57] (Version actuelle) spica31 [Automatisation avec des scripts] |
||
---|---|---|---|
Ligne 26: | Ligne 26: | ||
Pour avoir une interface graphique en français, choisir OCRfeeder (en français) : | Pour avoir une interface graphique en français, choisir OCRfeeder (en français) : | ||
- | <code root>apt-get ocrfeeder unpaper</code> | + | <code root>apt-get install ocrfeeder unpaper</code> |
- | ou Imagereader (en anglais) | + | ou gimagereader (en anglais) |
==== Images ==== | ==== Images ==== | ||
Ligne 54: | Ligne 54: | ||
Pour effectuer la reconnaissance de texte de la première image : | Pour effectuer la reconnaissance de texte de la première image : | ||
- | <code user>tesseract test-0.png -l fra output1</code> | + | <code user>tesseract -l fra test-0.png output1</code> |
Ici la langue du document est spécifiée avec l'option -l fra. | Ici la langue du document est spécifiée avec l'option -l fra. | ||
- | <note tip>Si rien n'est indiquée, c'est la langue anglaise qui est utilisée (eng)</note> | + | <note tip>Si rien n'est indiqué, c'est la langue anglaise qui est utilisée (eng)</note> |
Pour indiquer l'utilisation de deux langues par exemple français et allemand utilisez l'option : -l fra+deu. | Pour indiquer l'utilisation de deux langues par exemple français et allemand utilisez l'option : -l fra+deu. | ||
- | Par défaut le fichier en sortie sera au format *.txt, on trouvera donc un fichier output.txt à ouvrir avec n'importe quel éditeur de texte. | + | Par défaut le fichier en sortie sera au format *.txt, on trouvera donc un fichier output1.txt à ouvrir avec n'importe quel éditeur de texte. |
Pour effectuer la reconnaissance de texte de la deuxième image : | Pour effectuer la reconnaissance de texte de la deuxième image : | ||
- | <code user>tesseract test-1.png -l fra output2</code> | + | <code user>tesseract -l fra test-1.png output2</code> |
===== Reconnaissance du texte d'une image *png===== | ===== Reconnaissance du texte d'une image *png===== | ||
Ligne 78: | Ligne 78: | ||
[[doc:programmation:shell:scripts|Le script suivant]] (avec tous ses défauts, c'est mon premier script 8-) ) permet d'effectuer la reconnaissance des caractères sur une image *.png et ouvre libreoffice (writer) pour lire ou modifier le texte. | [[doc:programmation:shell:scripts|Le script suivant]] (avec tous ses défauts, c'est mon premier script 8-) ) permet d'effectuer la reconnaissance des caractères sur une image *.png et ouvre libreoffice (writer) pour lire ou modifier le texte. | ||
<code bash>#!/bin/bash | <code bash>#!/bin/bash | ||
- | tesseract "$1" "${1%%.*}" -l fra | + | tesseract -l fra "$1" "${1%%.*}" |
lowriter "${1%%.*}.txt" | lowriter "${1%%.*}.txt" | ||
exit 0</code> | exit 0</code> | ||
Ligne 102: | Ligne 102: | ||
##fichier de sortie | ##fichier de sortie | ||
- | sortie=/media/stock/Editions/OCR/zone_ocr.txt | + | sortie=/chemin/vers/zone_ocr.txt |
##choix langue (fra eng etc...) | ##choix langue (fra eng etc...) | ||
Ligne 108: | Ligne 108: | ||
cd ~ | cd ~ | ||
- | import -quality 70 -depth 8 ~/tmp.jpeg | + | import -quality 300 -depth 1000 ~/tmp.jpeg |
- | tesseract ~/tmp.jpeg tmp -l $langue 2> /dev/null && rm -f ~/tmp.jpeg | + | tesseract -l $langue ~/tmp.jpeg tmp 2> /dev/null && rm -f ~/tmp.jpeg |
cat ~/tmp.txt >> $sortie && rm -f ~/tmp.txt</code> | cat ~/tmp.txt >> $sortie && rm -f ~/tmp.txt</code> | ||
=== Utilisation === | === Utilisation === | ||
- | Le script lance un sélecteur de souris en forme de croix. Donc on sélectionne la zone que l'on veut passer à l'ocr et on retrouve (avec plus ou moins de fidélité) le texte dans le fichier indiqué dans la variable “sortie”. A noter que le script est actuellement configuré pour ajouter à la suite dans le même fichier les sélections successives. | + | Le script lance un sélecteur de souris en forme de croix. Donc on sélectionne la zone que l'on veut passer à l'ocr et on retrouve (avec plus ou moins de fidélité) le texte dans le fichier indiqué dans la variable “sortie”. |
+ | La qualité de copie obtenue peut être réglée par les valeurs de -quality et -depth. Voir le man import. | ||
+ | A noter que le script est actuellement configuré pour ajouter, à la suite dans le même fichier, les sélections successives. | ||
=== Source : === | === Source : === |