logo Debian Debian Debian-France Debian-Facile Debian-fr.org Forum-Debian.fr Debian ? Communautés logo inclusivité

Debian-facile

Bienvenue sur Debian-Facile, site d'aide pour les nouveaux utilisateurs de Debian.

Vous n'êtes pas identifié(e).


L'icône rouge permet de télécharger chaque page du wiki visitée au format PDF et la grise au format ODT → ODT PDF Export

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
Dernière révision Les deux révisions suivantes
doc:editeurs:tesseract [02/07/2017 15:47]
smolski [Automatisation avec des scripts]
doc:editeurs:tesseract [20/12/2023 09:55]
spica31 [Reconnaissance du texte d'un fichier PDF]
Ligne 26: Ligne 26:
  
 Pour avoir une interface graphique en français, choisir OCRfeeder (en français) : Pour avoir une interface graphique en français, choisir OCRfeeder (en français) :
-<code root>​apt-get ocrfeeder unpaper</​code>​ +<code root>​apt-get ​install ​ocrfeeder unpaper</​code>​ 
-ou Imagereader ​(en anglais)+ou gimagereader ​(en anglais)
  
 ==== Images ==== ==== Images ====
Ligne 54: Ligne 54:
  
 Pour effectuer la reconnaissance de texte de la première image : Pour effectuer la reconnaissance de texte de la première image :
-<code user>​tesseract test-0.png ​-l fra output1</​code>​+<code user>​tesseract ​-l fra test-0.png output1</​code>​
 Ici la langue du document est spécifiée avec l'​option -l fra. Ici la langue du document est spécifiée avec l'​option -l fra.
-<note tip>Si rien n'​est ​indiquée, c'est la langue anglaise qui est utilisée (eng)</​note>​+<note tip>Si rien n'​est ​indiqué, c'est la langue anglaise qui est utilisée (eng)</​note>​
  
 Pour indiquer l'​utilisation de deux langues par exemple français et allemand utilisez l'​option : -l fra+deu. Pour indiquer l'​utilisation de deux langues par exemple français et allemand utilisez l'​option : -l fra+deu.
  
-Par défaut le fichier en sortie sera au format *.txt, on trouvera donc un fichier ​output.txt à ouvrir avec n'​importe quel éditeur de texte.+Par défaut le fichier en sortie sera au format *.txt, on trouvera donc un fichier ​output1.txt à ouvrir avec n'​importe quel éditeur de texte.
  
 Pour effectuer la reconnaissance de texte de la deuxième image : Pour effectuer la reconnaissance de texte de la deuxième image :
-<code user>​tesseract test-1.png ​-l fra output2</​code>​+<code user>​tesseract ​-l fra test-1.png output2</​code>​
  
 ===== Reconnaissance du texte d'une image *png===== ===== Reconnaissance du texte d'une image *png=====
Ligne 102: Ligne 102:
            
     ##fichier de sortie     ##fichier de sortie
-    sortie=/media/stock/​Editions/​OCR/​zone_ocr.txt+    sortie=/chemin/vers/​zone_ocr.txt
            
     ##choix langue ​ (fra eng etc...)     ##choix langue ​ (fra eng etc...)
Ligne 108: Ligne 108:
            
     cd ~      cd ~
-    import -quality ​70 -depth ​~/tmp.jpeg+    import -quality ​300 -depth ​1000 ~/tmp.jpeg
     tesseract ~/tmp.jpeg tmp  -l $langue ​ 2> /dev/null && rm -f ~/tmp.jpeg     tesseract ~/tmp.jpeg tmp  -l $langue ​ 2> /dev/null && rm -f ~/tmp.jpeg
     cat ~/tmp.txt >> $sortie && rm -f ~/​tmp.txt</​code>​     cat ~/tmp.txt >> $sortie && rm -f ~/​tmp.txt</​code>​
Ligne 114: Ligne 114:
 === Utilisation === === Utilisation ===
  
-Le script lance un sélecteur de souris en forme de croix. Donc on sélectionne la zone que l'on veut passer à l'ocr et on retrouve (avec plus ou moins de fidélité) le texte dans le fichier indiqué dans la variable “sortie”. A noter que le script est actuellement configuré pour ajouter à la suite dans le même fichier les sélections successives.+Le script lance un sélecteur de souris en forme de croix. Donc on sélectionne la zone que l'on veut passer à l'ocr et on retrouve (avec plus ou moins de fidélité) le texte dans le fichier indiqué dans la variable “sortie”. 
 +La qualité de copie obtenue peut être réglée par les valeurs de -quality et -depth. Voir le man import. 
 +A noter que le script est actuellement configuré pour ajouterà la suite dans le même fichierles sélections successives.
  
 === Source : === === Source : ===
doc/editeurs/tesseract.txt · Dernière modification: 20/12/2023 09:57 par spica31

Pied de page des forums

Propulsé par FluxBB