Vous n'êtes pas identifié(e).
L'icône rouge permet de télécharger chaque page du wiki visitée au format
PDF et la grise au format ODT →
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente Prochaine révision Les deux révisions suivantes | ||
doc:editeurs:tesseract [02/07/2017 15:47] smolski [Automatisation avec des scripts] |
doc:editeurs:tesseract [08/02/2021 20:15] captnfab doc:editeur:tesseract renommé en doc:editeurs:tesseract (pas à sa place) |
||
---|---|---|---|
Ligne 26: | Ligne 26: | ||
Pour avoir une interface graphique en français, choisir OCRfeeder (en français) : | Pour avoir une interface graphique en français, choisir OCRfeeder (en français) : | ||
- | <code root>apt-get ocrfeeder unpaper</code> | + | <code root>apt-get install ocrfeeder unpaper</code> |
- | ou Imagereader (en anglais) | + | ou gimagereader (en anglais) |
==== Images ==== | ==== Images ==== | ||
Ligne 102: | Ligne 102: | ||
##fichier de sortie | ##fichier de sortie | ||
- | sortie=/media/stock/Editions/OCR/zone_ocr.txt | + | sortie=/chemin/vers/zone_ocr.txt |
##choix langue (fra eng etc...) | ##choix langue (fra eng etc...) | ||
Ligne 108: | Ligne 108: | ||
cd ~ | cd ~ | ||
- | import -quality 70 -depth 8 ~/tmp.jpeg | + | import -quality 300 -depth 1000 ~/tmp.jpeg |
tesseract ~/tmp.jpeg tmp -l $langue 2> /dev/null && rm -f ~/tmp.jpeg | tesseract ~/tmp.jpeg tmp -l $langue 2> /dev/null && rm -f ~/tmp.jpeg | ||
cat ~/tmp.txt >> $sortie && rm -f ~/tmp.txt</code> | cat ~/tmp.txt >> $sortie && rm -f ~/tmp.txt</code> | ||
Ligne 114: | Ligne 114: | ||
=== Utilisation === | === Utilisation === | ||
- | Le script lance un sélecteur de souris en forme de croix. Donc on sélectionne la zone que l'on veut passer à l'ocr et on retrouve (avec plus ou moins de fidélité) le texte dans le fichier indiqué dans la variable “sortie”. A noter que le script est actuellement configuré pour ajouter à la suite dans le même fichier les sélections successives. | + | Le script lance un sélecteur de souris en forme de croix. Donc on sélectionne la zone que l'on veut passer à l'ocr et on retrouve (avec plus ou moins de fidélité) le texte dans le fichier indiqué dans la variable “sortie”. |
+ | La qualité de copie obtenue peut être réglée par les valeurs de -quality et -depth. Voir le man import. | ||
+ | A noter que le script est actuellement configuré pour ajouter, à la suite dans le même fichier, les sélections successives. | ||
=== Source : === | === Source : === |