logo Debian Debian Debian-France Debian-Facile Debian-fr.org Forum-Debian.fr Debian ? Communautés logo inclusivité

Debian-facile

Bienvenue sur Debian-Facile, site d'aide pour les nouveaux utilisateurs de Debian.

Vous n'êtes pas identifié(e).


L'icône rouge permet de télécharger chaque page du wiki visitée au format PDF et la grise au format ODT → ODT PDF Export

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
doc:editeurs:tesseract [02/07/2017 15:47]
smolski [Automatisation avec des scripts]
doc:editeurs:tesseract [20/12/2023 09:57] (Version actuelle)
spica31 [Automatisation avec des scripts]
Ligne 26: Ligne 26:
  
 Pour avoir une interface graphique en français, choisir OCRfeeder (en français) : Pour avoir une interface graphique en français, choisir OCRfeeder (en français) :
-<code root>​apt-get ocrfeeder unpaper</​code>​ +<code root>​apt-get ​install ​ocrfeeder unpaper</​code>​ 
-ou Imagereader ​(en anglais)+ou gimagereader ​(en anglais)
  
 ==== Images ==== ==== Images ====
Ligne 54: Ligne 54:
  
 Pour effectuer la reconnaissance de texte de la première image : Pour effectuer la reconnaissance de texte de la première image :
-<code user>​tesseract test-0.png ​-l fra output1</​code>​+<code user>​tesseract ​-l fra test-0.png output1</​code>​
 Ici la langue du document est spécifiée avec l'​option -l fra. Ici la langue du document est spécifiée avec l'​option -l fra.
-<note tip>Si rien n'​est ​indiquée, c'est la langue anglaise qui est utilisée (eng)</​note>​+<note tip>Si rien n'​est ​indiqué, c'est la langue anglaise qui est utilisée (eng)</​note>​
  
 Pour indiquer l'​utilisation de deux langues par exemple français et allemand utilisez l'​option : -l fra+deu. Pour indiquer l'​utilisation de deux langues par exemple français et allemand utilisez l'​option : -l fra+deu.
  
-Par défaut le fichier en sortie sera au format *.txt, on trouvera donc un fichier ​output.txt à ouvrir avec n'​importe quel éditeur de texte.+Par défaut le fichier en sortie sera au format *.txt, on trouvera donc un fichier ​output1.txt à ouvrir avec n'​importe quel éditeur de texte.
  
 Pour effectuer la reconnaissance de texte de la deuxième image : Pour effectuer la reconnaissance de texte de la deuxième image :
-<code user>​tesseract test-1.png ​-l fra output2</​code>​+<code user>​tesseract ​-l fra test-1.png output2</​code>​
  
 ===== Reconnaissance du texte d'une image *png===== ===== Reconnaissance du texte d'une image *png=====
Ligne 78: Ligne 78:
 [[doc:​programmation:​shell:​scripts|Le script suivant]] (avec tous ses défauts, c'est mon premier script 8-) ) permet d'​effectuer la reconnaissance des caractères sur une image *.png et ouvre libreoffice (writer) pour lire ou modifier le texte. [[doc:​programmation:​shell:​scripts|Le script suivant]] (avec tous ses défauts, c'est mon premier script 8-) ) permet d'​effectuer la reconnaissance des caractères sur une image *.png et ouvre libreoffice (writer) pour lire ou modifier le texte.
 <code bash>#​!/​bin/​bash <code bash>#​!/​bin/​bash
-tesseract "​$1"​ "​${1%%.*}" ​-l fra+tesseract ​-l fra "​$1"​ "​${1%%.*}"​
 lowriter "​${1%%.*}.txt"​ lowriter "​${1%%.*}.txt"​
 exit 0</​code>​ exit 0</​code>​
Ligne 102: Ligne 102:
            
     ##fichier de sortie     ##fichier de sortie
-    sortie=/media/stock/​Editions/​OCR/​zone_ocr.txt+    sortie=/chemin/vers/​zone_ocr.txt
            
     ##choix langue ​ (fra eng etc...)     ##choix langue ​ (fra eng etc...)
Ligne 108: Ligne 108:
            
     cd ~      cd ~
-    import -quality ​70 -depth ​~/​tmp.jpeg +    import -quality ​300 -depth ​1000 ~/​tmp.jpeg 
-    tesseract ~/tmp.jpeg tmp  -l $langue ​ 2> /dev/null && rm -f ~/tmp.jpeg+    tesseract ​ -l $langue ​~/tmp.jpeg tmp  2> /dev/null && rm -f ~/tmp.jpeg
     cat ~/tmp.txt >> $sortie && rm -f ~/​tmp.txt</​code>​     cat ~/tmp.txt >> $sortie && rm -f ~/​tmp.txt</​code>​
  
 === Utilisation === === Utilisation ===
  
-Le script lance un sélecteur de souris en forme de croix. Donc on sélectionne la zone que l'on veut passer à l'ocr et on retrouve (avec plus ou moins de fidélité) le texte dans le fichier indiqué dans la variable “sortie”. A noter que le script est actuellement configuré pour ajouter à la suite dans le même fichier les sélections successives.+Le script lance un sélecteur de souris en forme de croix. Donc on sélectionne la zone que l'on veut passer à l'ocr et on retrouve (avec plus ou moins de fidélité) le texte dans le fichier indiqué dans la variable “sortie”. 
 +La qualité de copie obtenue peut être réglée par les valeurs de -quality et -depth. Voir le man import. 
 +A noter que le script est actuellement configuré pour ajouterà la suite dans le même fichierles sélections successives.
  
 === Source : === === Source : ===
doc/editeurs/tesseract.1499003238.txt.gz · Dernière modification: 02/07/2017 15:47 par smolski

Pied de page des forums

Propulsé par FluxBB