Table des matières

roc sur zone d'écran

Introduction

Exemple d'utilisation de tesseract en sélectionnant une partie de l'affichage à l'écran (page web, fichier image, etc….)

Installation

Les paquets utilisés sont imagemagick (qui contient import) et tesseract-ocr. Quant au script ci-dessous on le met où on veut, pourvu qu'il soit accessible à celui qui l'utilise:

tesszone.sh
#!/bin/bash
 
## sélection d'une zone sur l'écran pour conversion ocr
 
##fichier de sortie
sortie=/chemin/vers/zone_ocr.txt
 
##choix langue  (fra eng etc...)
langue=fra
 
cd ~	
import -quality 70 -depth 8 ~/tmp.jpeg
tesseract ~/tmp.jpeg tmp  -l $langue  2> /dev/null && rm -f ~/tmp.jpeg
cat ~/tmp.txt >> $sortie && rm -f ~/tmp.txt

Utilisation

Le script lance un sélecteur de souris en forme de croix. Donc on sélectionne la zone que l'on veut passer à l'ocr et on retrouve (avec plus ou moins de fidélité) le texte dans le fichier indiqué dans la variable “sortie”. A noter que le script est actuellement configuré pour ajouter à la suite dans le même fichier les sélections successives.