L'icône rouge permet de télécharger chaque page du wiki visitée au format PDF et la grise au format ODT →

Ceci est une ancienne révision du document !

Table des matières

Introduction
Installation
Utilisation en lignes de commandes
Sources
Installation
Utilisation

Titre de Votre Tuto

Objet : Installer et utiliser tesseract pour la reconnaissance de caractères (OCR)
Niveau requis :
débutant, avisé
Commentaires : Contexte d'utilisation du sujet du tuto.
Débutant, à savoir : Utiliser GNU/Linux en ligne de commande, tout commence là !.
Suivi :
en-chantier, à-tester, à-placer

- Pour choisir, voir les autres Tags possibles dans l'Atelier.
- Création par chalu 01/07/2017
- Testé par <…> le <…>
Commentaires sur le forum : Lien vers le forum concernant ce tuto ¹⁾

Introduction

Installer et utiliser le logiciel tesseract pour effectuer une reconnaissance de caractère à partir d'une image *.png ou d'un fichier *.pdf

Installation

apt-get install tesseract-ocr tesseract-ocr-fra tesseract-ocr-osd

Par défaut le pack de langue anglaise (eng) est installé et est utilisé lors de la reconnaissance des caractères si une autre langue n'est pas spécifiée. On peut installer d'autres langues, par exemple pour l'espagnol si on veut exploiter un document dans cette langue, il suffit d'installer le paquet tesseract-ocr-spa et pour installer toutes les langues le paquet tesseract-ocr-all

Pour avoir une interface graphique, on peut choisir OCRfeeder (en français) ou Imagereader (en anglais) :

apt-get ocrfeeder unpaper

Pour manipuler les images :

apt-get install imagemagick

Utilisation en lignes de commandes

Scanner le document avec suffisamment de qualité

Vous pouvez scanner votre document pour obtenir une image avec le logiciel de votre choix, par exemple SimpleScan.
L'important est de choisir une résolution assez élévée de 300 à 500 dpi.

Reconnaissance du texte d'un PDF

On commence par convertir le fichier *.pdf en image *.png

convert -density 500 PDFtest.pdf -quality 100 test.png

IL y aura autant d'images en sortie que de pages du pdf nommé PDFtest.pdf. Le noms de ces images sera test-0.png, test-1.png …etc
Il peut y avoir des messages d'erreurs mais qui n'empêchent la reconnaissances de caractères. Pour effectuer la reconnaissance de texte de la première image :

tesseract test-0.png -l fra output1

Ici la langue du document est spécifiée avec l'option -l fra. Si rien n'est indiquée, c'est la langue anglaise qui est utilisée (eng)
Pour indiquer l'utilisation de deux langues par exemple français et allemand : -l fra+deu
Par défaut le fichier en sortie sera au format *.txt. On trouve donc un fichier output.txt à ouvrir avec n'importe quel éditeur de texte.
Pour effectuer la reconnaissance de texte de la deuxième image :

tesseract test-1.png -l fra output2

Reconnaissance du texte d'une image

La taille de l'image est un élément clé pour la reconnaissance des caractères

Voir l'exemple donné dans ce message d'un fil du forum où l'on voit bien l'influence de la taille de l'image sur la reconnaissance de caractères.

Sources

https://github.com/tesseract-ocr/tesseract/wiki/Command-Line-Usage
Tesseract-OCR sur le site Ubuntu-fr
http://www.joyofdata.de/blog/a-guide-on-ocr-with-tesseract-3-03/

Installation

Utilisation

¹⁾

N'hésitez pas à y faire part de vos remarques, succès, améliorations ou échecs !

doc/editeurs/tesseract.1498925066.txt.gz · Dernière modification: 01/07/2017 18:04 par chalu

Debian-facile

Table des matières

Titre de Votre Tuto

Introduction

Installation

Utilisation en lignes de commandes

Scanner le document avec suffisamment de qualité

Reconnaissance du texte d'un PDF

Reconnaissance du texte d'une image

Sources

Installation

Utilisation

Pied de page des forums