logo Debian Debian Debian-France Debian-Facile Debian-fr.org Forum-Debian.fr Debian ? Communautés logo inclusivité

Debian-facile

Bienvenue sur Debian-Facile, site d'aide pour les nouveaux utilisateurs de Debian.

Vous n'êtes pas identifié(e).


L'icône rouge permet de télécharger chaque page du wiki visitée au format PDF et la grise au format ODT → ODT PDF Export

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
doc:editeurs:tesseract [01/07/2017 18:04]
chalu [Utilisation en lignes de commandes]
doc:editeurs:tesseract [20/12/2023 09:57] (Version actuelle)
spica31 [Automatisation avec des scripts]
Ligne 1: Ligne 1:
-====== ​Titre de Votre Tuto ======+====== ​tesseract (OCR) ======
  
-  * Objet : Installer ​et utiliser tesseract pour la reconnaissance ​de caractères (OCR) +  * Objet : Installation ​et utilisation ​de Tesserac 
-  * Niveau requis : FIXME {{tag>​débutant ​avisé}} +  * Niveau requis : {{tag>​débutant}} 
-  * Commentaires : //Contexte d'​utilisation du sujet du tuto. // FIXME+  * Commentaires : //Installer et utiliser tesseract pour la reconnaissance de caractères (OCR)//
   * Débutant, à savoir : [[:​doc:​systeme:​commandes:​le_debianiste_qui_papillonne|Utiliser GNU/Linux en ligne de commande, tout commence là !.]] :-)   * Débutant, à savoir : [[:​doc:​systeme:​commandes:​le_debianiste_qui_papillonne|Utiliser GNU/Linux en ligne de commande, tout commence là !.]] :-)
-  * Suivi : {{tag>en-chantier ​à-tester ​à-placer}} - FIXME Pour choisir, voir les autres Tags possibles dans [[:​atelier:#​tags|l'​Atelier]].+  * Suivi : {{tag>​à-tester}}
     * Création par [[user>​chalu]] 01/07/2017     * Création par [[user>​chalu]] 01/07/2017
     * Testé par <...> le <...> FIXME     * Testé par <...> le <...> FIXME
Ligne 12: Ligne 12:
  
 ===== Introduction ===== ===== Introduction =====
 +
 Installer et utiliser le logiciel tesseract pour effectuer une reconnaissance de caractère à partir d'une image *.png ou d'un fichier *.pdf Installer et utiliser le logiciel tesseract pour effectuer une reconnaissance de caractère à partir d'une image *.png ou d'un fichier *.pdf
 +
 ===== Installation ===== ===== Installation =====
 +
 <code root>​apt-get install tesseract-ocr tesseract-ocr-fra tesseract-ocr-osd</​code>​ <code root>​apt-get install tesseract-ocr tesseract-ocr-fra tesseract-ocr-osd</​code>​
-Par défaut le pack de langue anglaise (eng) est installé et est utilisé lors de la reconnaissance des caractères ​si une autre langue n'est pas spécifiéeOn peut installer d'​autres langues, par exemple pour l'​espagnol si on veut exploiter un document dans cette langue, il suffit d'​installer le paquet tesseract-ocr-spa et pour installer toutes les langues le paquet tesseract-ocr-all+Par défaut le pack de langue anglaise (eng) est installé et est utilisé lors de la reconnaissance des caractères.
  
-Pour avoir une interface graphique, ​on peut choisir OCRfeeder (en français) ou Imagereader (en anglais) : +On peut installer d'​autres langues, par exemple l'​espagnol si on veut exploiter un document dans cette langue, il suffit d'​installer le paquet : tesseract-ocr-spa. 
-<code root>​apt-get ocrfeeder unpaper</​code>​ +<​note>​Pour installer toutes les langues installer le paquet **tesseract-ocr-all**</​note>​ 
-Pour manipuler les images :+ 
 +==== Interface graphique ==== 
 + 
 +Pour avoir une interface graphique ​en français, choisir OCRfeeder (en français) : 
 +<code root>​apt-get ​install ​ocrfeeder unpaper</​code>​ 
 +ou gimagereader (en anglais) 
 + 
 +==== Images ==== 
 + 
 +Pour manipuler les images, on installe [[doc:media:imagemagick|imagemagick]]
 <code root>​apt-get install imagemagick</​code>​ <code root>​apt-get install imagemagick</​code>​
-===== Utilisation en lignes de commandes ===== +===== Scanner le document ====
-==== Scanner le document ​avec suffisamment de qualité ​==== + 
-Vous pouvez scanner votre document pour obtenir une image avec le logiciel de votre choix, par exemple SimpleScan. ​\\ +Vous pouvez scanner votre document pour obtenir une image avec suffisamment de qualité en utilisant ​le logiciel de votre choix, par exemple SimpleScan. ​Le mieux est de choisir le format png. 
-L'​important est de choisir une résolution assez élévée ​de 300 à 500 dpi. + 
-==== Reconnaissance du texte d'un PDF ==== +<note tip>L'​important est de choisir une résolution assez élevée ​de 300 à 500 dpi, voire 600 dpi</​note>​ 
-On commence par convertir le fichier *.pdf en image *.png+ 
 +===== Reconnaissance du texte d'​un ​fichier ​PDF ====
 + 
 +==== Convertir ==== 
 + 
 +On commence par convertir le fichier *.pdf en image *.png :
 <code user>​convert -density 500 PDFtest.pdf -quality 100 test.png</​code>​ <code user>​convert -density 500 PDFtest.pdf -quality 100 test.png</​code>​
-IL y aura autant d'​images en sortie que de pages du pdf nommé PDFtest.pdf. ​Le noms de ces images ​sera test-0.png, test-1.png ...etc ​\\  + 
-Il peut y avoir des messages d'​erreurs mais qui n'empêchent ​la reconnaissances de caractères.+Il y aura autant d'​images en sortie que de pages du pdf nommé PDFtest.pdf. ​\\ 
 +Les noms de ces images ​seront ​test-0.png, test-1.png ...etc 
 + 
 +<​note>​Il peut y avoir des messages d'​erreurs mais cela n'empêche ​la reconnaissances de caractères.</​note>​ 
 + 
 +==== Reconnaissance de texte ==== 
 Pour effectuer la reconnaissance de texte de la première image : Pour effectuer la reconnaissance de texte de la première image :
-<code user>​tesseract test-0.png ​-l fra output1</​code>​ +<code user>​tesseract ​-l fra test-0.png output1</​code>​ 
-Ici la langue du document est spécifiée avec l'​option -l fra. Si rien n'​est ​indiquée, c'est la langue anglaise qui est utilisée (eng) \\ +Ici la langue du document est spécifiée avec l'​option -l fra. 
-Pour indiquer l'​utilisation de deux langues par exemple français et allemand : -l fra+deu ​\\ +<note tip>Si rien n'​est ​indiqué, c'est la langue anglaise qui est utilisée (eng)</​note>​ 
-Par défaut le fichier en sortie sera au format *.txt. On trouve ​donc un fichier ​output.txt à ouvrir avec n'​importe quel éditeur de texte. ​\\ + 
 +Pour indiquer l'​utilisation de deux langues par exemple français et allemand ​utilisez l'​option ​: -l fra+deu
 + 
 +Par défaut le fichier en sortie sera au format *.txt, on trouvera ​donc un fichier ​output1.txt à ouvrir avec n'​importe quel éditeur de texte. 
 Pour effectuer la reconnaissance de texte de la deuxième image : Pour effectuer la reconnaissance de texte de la deuxième image :
-<code user>​tesseract test-1.png ​-l fra output2</​code>​ +<code user>​tesseract ​-l fra test-1.png output2</​code>​ 
-==== Reconnaissance du texte d'une image ====+ 
 +===== Reconnaissance du texte d'une image *png====
 <note important>​La taille de l'​image est un élément clé pour la reconnaissance des caractères</​note>​ <note important>​La taille de l'​image est un élément clé pour la reconnaissance des caractères</​note>​
-Voir l'​exemple donné dans [[https://​debian-facile.org/​viewtopic.php?​pid=229246#​p229246|ce message d'un fil du forum]] ​ où l'on voit bien l'​influence de la taille de l'​image sur la reconnaissance de caractères. 
-===== Sources ===== 
-[[https://​github.com/​tesseract-ocr/​tesseract/​wiki/​Command-Line-Usage|https://​github.com/​tesseract-ocr/​tesseract/​wiki/​Command-Line-Usage]] \\  
-[[https://​doc.ubuntu-fr.org/​tesseract-ocr|Tesseract-OCR sur le site Ubuntu-fr]] \\ 
-[[http://​www.joyofdata.de/​blog/​a-guide-on-ocr-with-tesseract-3-03/​|http://​www.joyofdata.de/​blog/​a-guide-on-ocr-with-tesseract-3-03/​]] 
  
-===== Installation ​=====+Voir l'​exemple donné dans [[https://​debian-facile.org/​viewtopic.php?​pid=229246#​p229246|ce message d'un fil du forum]] où l'on voit bien l'​influence de la taille de l'​image sur la reconnaissance de caractères. 
 +===== Automatisation avec des scripts ===== 
 + 
 +On peut ajouter des actions personnalisées dans thunar (gestionnaire de fichiers de XFCE) qui permettent d'​avoir avec un clic droit sur le fichier une entrée de menu permettant de choisir une action à réaliser sur ce fichier. 
 +  
 +==== Script sur png ==== 
 + 
 +[[doc:​programmation:​shell:​scripts|Le script suivant]] (avec tous ses défauts, c'est mon premier script 8-) ) permet d'​effectuer la reconnaissance des caractères sur une image *.png et ouvre libreoffice (writer) pour lire ou modifier le texte. 
 +<code bash>#​!/​bin/​bash 
 +tesseract -l fra "​$1"​ "​${1%%.*}"​ 
 +lowriter "​${1%%.*}.txt"​ 
 +exit 0</​code>​ 
 +Il suffit de copier coller le texte avec mousepad (ou un autre éditeur de texte) et de l'​enregistrer en lui donnant par exemple le nom PNG-2-ocr-lo. Ensuite un clic droit sur le fichier > Propriétés > Permissions pour le rendre exécutable en cochant la case ad-hoc. 
 + 
 +Dans thunar > Editer > Configurer les actions personnalisées > clic sur le bouton pour ajouter une action. \\ 
 +On complète le nom de l'​action par exemple PNG 2 OCR libreoffice et on remplit la ligne de commande avec : 
 +<​code>/​le-chemin-qui-mène-au-script/​PNG-2-ocr-lo %f</​code>​ 
 +<note tip>On peut choisir une icone pour l'​action.</​note>​ 
 + 
 +Dans l'​onglet "​conditions d'​apparition"​ on coche "​Fichiers image" et on complète la ligne "motif de fichiers"​ avec :\\ 
 +*.png;​*.PNG 
 + 
 +On valide et voilà. On a l'​action qui est proposée sur les fichiers *.png 
 + 
 +==== Script roc ==== 
 + 
 +Exemple d'​utilisation de tesseract en sélectionnant une partie de l'​affichage à l'​écran (page web, fichier image, etc….) 
 + 
 +<code bash> ​   #​!/​bin/​bash 
 +      
 +    ## sélection d'une zone sur l'​écran pour conversion ocr 
 +      
 +    ##fichier de sortie 
 +    sortie=/​chemin/​vers/​zone_ocr.txt 
 +      
 +    ##choix langue ​ (fra eng etc...) 
 +    langue=fra 
 +      
 +    cd ~  
 +    import -quality 300 -depth 1000 ~/​tmp.jpeg 
 +    tesseract ​ -l $langue ~/tmp.jpeg tmp  2> /dev/null && rm -f ~/​tmp.jpeg 
 +    cat ~/tmp.txt >> $sortie && rm -f ~/​tmp.txt</​code>​ 
 + 
 +=== Utilisation === 
 + 
 +Le script lance un sélecteur de souris en forme de croix. Donc on sélectionne la zone que l'on veut passer à l'ocr et on retrouve (avec plus ou moins de fidélité) le texte dans le fichier indiqué dans la variable “sortie”. 
 +La qualité de copie obtenue peut être réglée par les valeurs de -quality et -depth. Voir le man import. 
 +A noter que le script est actuellement configuré pour ajouter, à la suite dans le même fichier, les sélections successives. 
 + 
 +=== Source : === 
 + 
 +== Phlinux == 
 + 
 +  * [[utilisateurs:​phlinux:​tutos:​r.o.c.-sur-une-partie-de-l-ecran]] 
 +===== Sources ​=====
  
-===== Utilisation =====+  * [[https://​github.com/​tesseract-ocr/​tesseract/​wiki/​Command-Line-Usage|https://​github.com/​tesseract-ocr/​tesseract/​wiki/​Command-Line-Usage]] 
 +  * [[https://​doc.ubuntu-fr.org/​tesseract-ocr|Tesseract-OCR sur le site Ubuntu-fr]] 
 +  * [[http://​www.joyofdata.de/​blog/​a-guide-on-ocr-with-tesseract-3-03/​|http://​www.joyofdata.de/​blog/​a-guide-on-ocr-with-tesseract-3-03/​]]
  
  
doc/editeurs/tesseract.1498925066.txt.gz · Dernière modification: 01/07/2017 18:04 par chalu

Pied de page des forums

Propulsé par FluxBB