Exemple d'utilisation de tesseract en sélectionnant une partie de l'affichage à l'écran (page web, fichier image, etc….)
Les paquets utilisés sont imagemagick (qui contient import) et tesseract-ocr. Quant au script ci-dessous on le met où on veut, pourvu qu'il soit accessible à celui qui l'utilise:
#!/bin/bash ## sélection d'une zone sur l'écran pour conversion ocr ##fichier de sortie sortie=/chemin/vers/zone_ocr.txt ##choix langue (fra eng etc...) langue=fra cd ~ import -quality 70 -depth 8 ~/tmp.jpeg tesseract ~/tmp.jpeg tmp -l $langue 2> /dev/null && rm -f ~/tmp.jpeg cat ~/tmp.txt >> $sortie && rm -f ~/tmp.txt
Le script lance un sélecteur de souris en forme de croix. Donc on sélectionne la zone que l'on veut passer à l'ocr et on retrouve (avec plus ou moins de fidélité) le texte dans le fichier indiqué dans la variable “sortie”. A noter que le script est actuellement configuré pour ajouter à la suite dans le même fichier les sélections successives.