L'icône rouge permet de télécharger chaque page du wiki visitée au format PDF et la grise au format ODT →

Différences

Ci-dessous, les différences entre deux révisions de la page.

--- doc:editeurs:tesseract [02/07/2017 15:47]
smolski [Automatisation avec des scripts]
+++ doc:editeurs:tesseract [20/12/2023 09:57] (Version actuelle)
spica31 [Automatisation avec des scripts]
@@ Ligne 26: / Ligne 26: @@
 Pour avoir une interface graphique en français, choisir OCRfeeder (en français) :
-<code root>apt-get ocrfeeder unpaper</code>
+<code root>apt-get install ocrfeeder unpaper</code>
-ou Imagereader (en anglais)
+ou gimagereader (en anglais)
 ==== Images ====
@@ Ligne 54: / Ligne 54: @@
 Pour effectuer la reconnaissance de texte de la première image :
-<code user>tesseract test-0.png -l fra output1</code>
+<code user>tesseract -l fra test-0.png output1</code>
 Ici la langue du document est spécifiée avec l'option -l fra.
-<note tip>Si rien n'est indiquée, c'est la langue anglaise qui est utilisée (eng)</note>
+<note tip>Si rien n'est indiqué, c'est la langue anglaise qui est utilisée (eng)</note>
 Pour indiquer l'utilisation de deux langues par exemple français et allemand utilisez l'option : -l fra+deu.
-Par défaut le fichier en sortie sera au format *.txt, on trouvera donc un fichier output.txt à ouvrir avec n'importe quel éditeur de texte.
+Par défaut le fichier en sortie sera au format *.txt, on trouvera donc un fichier output1.txt à ouvrir avec n'importe quel éditeur de texte.
 Pour effectuer la reconnaissance de texte de la deuxième image :
-<code user>tesseract test-1.png -l fra output2</code>
+<code user>tesseract -l fra test-1.png output2</code>
 ===== Reconnaissance du texte d'une image *png=====
@@ Ligne 78: / Ligne 78: @@
 [[doc:programmation:shell:scripts|Le script suivant]] (avec tous ses défauts, c'est mon premier script 8-) ) permet d'effectuer la reconnaissance des caractères sur une image *.png et ouvre libreoffice (writer) pour lire ou modifier le texte.
 <code bash>#!/bin/bash
-tesseract "$1" "${1%%.*}" -l fra
+tesseract -l fra "$1" "${1%%.*}"
 lowriter "${1%%.*}.txt"
 exit 0</code>
@@ Ligne 102: / Ligne 102: @@
     ##fichier de sortie
-    sortie=/media/stock/Editions/OCR/zone_ocr.txt
+    sortie=/chemin/vers/zone_ocr.txt
     ##choix langue  (fra eng etc...)
@@ Ligne 108: / Ligne 108: @@
     cd ~
-    import -quality 70 -depth 8 ~/tmp.jpeg
+    import -quality 300 -depth 1000 ~/tmp.jpeg
-    tesseract ~/tmp.jpeg tmp  -l $langue  2> /dev/null && rm -f ~/tmp.jpeg
+    tesseract  -l $langue ~/tmp.jpeg tmp  2> /dev/null && rm -f ~/tmp.jpeg
     cat ~/tmp.txt >> $sortie && rm -f ~/tmp.txt</code>
 === Utilisation ===
-Le script lance un sélecteur de souris en forme de croix. Donc on sélectionne la zone que l'on veut passer à l'ocr et on retrouve (avec plus ou moins de fidélité) le texte dans le fichier indiqué dans la variable “sortie”. A noter que le script est actuellement configuré pour ajouter à la suite dans le même fichier les sélections successives.
+Le script lance un sélecteur de souris en forme de croix. Donc on sélectionne la zone que l'on veut passer à l'ocr et on retrouve (avec plus ou moins de fidélité) le texte dans le fichier indiqué dans la variable “sortie”.
+La qualité de copie obtenue peut être réglée par les valeurs de -quality et -depth. Voir le man import.
+A noter que le script est actuellement configuré pour ajouter, à la suite dans le même fichier, les sélections successives.
 === Source : ===

doc/editeurs/tesseract.1499003238.txt.gz · Dernière modification: 02/07/2017 15:47 par smolski

Debian-facile

Différences

Pied de page des forums