logo Debian Debian Debian-France Debian-Facile Debian-fr.org Forum-Debian.fr Debian ? Communautés logo inclusivité

Debian-facile

Bienvenue sur Debian-Facile, site d'aide pour les nouveaux utilisateurs de Debian.

Vous n'êtes pas identifié(e).

#1 30-06-2017 23:17:55

ideefixe
Membre
Lieu : Berry
Distrib. : Emmabuntüs Debian Edition
(G)UI : Xfce
Inscription : 17-10-2015
Site Web

Tesseract-ocr outil pour les dyslexiques

Bonjour smile

Pour les enfants dyslexiques, dysgraphiques, un scanner et un logiciel de reconnaissance de caractères est préconisé pour les aider dans leurs études.
https://www.ordyslexie.fr/page/29030-pr … a-solution

Le logiciel libre disponible pour cette tâche est Tesseract-ocr.

Merci à Chalu pour son tutoriel.

Suffit-il de l'installer dans PrimTux2-Dys pour que les textes scannés apparaissent dans le traitement de texte comme dans cette vidéo ?

Dernière modification par ideefixe (30-06-2017 23:19:38)

Hors ligne

#2 01-07-2017 07:43:01

chalu
Modératrice
Lieu : Anjou
Distrib. : openSUSE Tumbleweed
Noyau : Linux 5.12
(G)UI : KDE 5.21.4
Inscription : 11-03-2016

Re : Tesseract-ocr outil pour les dyslexiques

Bonjour ideefixe smile
Tu me rappelles que je n'ai pas tout à fait fini ce tuto .... le temps manque trop souvent !
Je vais le déplacer dans la partie où tous les membres peuvent participer comme ça tu pourras l'enrichir de tes essais ainsi que tous les membres.
tesseract va pouvoir faire la partie reconnaissance de caractères après avoir scanné
J'imagine qu'il doit être possible d'enchaîner des commandes ou de faire un script pour automatiser tout ça.
Le point clé c'est la résolution du scan qui doit être suffisante pour limiter les erreurs de reconnaissance.

Edit : voilà à partir du tuto un enchainement de commandes :
j'ouvre un terminal dans le dossier qui contient le texte scanné avec Simplescan en pdf (résolution à 300dpi pour mon test) et qui se nomme test-scan.pdf et je fais la commande :

convert -density 500 test-scan.pdf -quality 100 test-scan.png && tesseract test-scan.png -l fra output1 && libreoffice output1.txt


Tesseract Open Source OCR Engine v3.03 with Leptonica


Libreoffice s'ouvre alors avec le document.

Tu noteras que dans la vidéo le choix du document n'est pas anodin : que du texte et assez gros, sur d'autres documents il pourrait y avoir des erreurs de reconnaissance.

Hors ligne

#3 01-07-2017 10:31:58

chalu
Modératrice
Lieu : Anjou
Distrib. : openSUSE Tumbleweed
Noyau : Linux 5.12
(G)UI : KDE 5.21.4
Inscription : 11-03-2016

Re : Tesseract-ocr outil pour les dyslexiques

J'ajoute un exemple que je viens de constater encore une fois sur l'importance de la taille de l'image png
J'ai enregistré dans mon dossier personnel cette image-texte telle qu'elle est sur le net.
Elle fait 31,0 Ko d'après thunar et s'appelle texte1.png
J'ai utilisé la commande :

tesseract texte1.png -l fra output1 && libreoffice output1.txt


qui m'a donné dans libreoffice un texte avec quelques erreurs soulignées en rouge dans libreoffice :

résultat1 a écrit :

Comment laire lorsque l'on n'a aucune connaissance dans le domaine de la
crèation de sites web ?

La solution la plus simple et rapide est de laire appel a une agence de
crèation de site web, une agence de communication, un indèpendant,

etc... C'est une solution viable mais qui vous coütera très cher!

Alors comment laire lorsque l'on n'a pas de connaissance et pas (peu) de
budget ?

Internet regorge de solutions et de services qui proposent de crèer des sites
web simplement et gratuitement, ce qui est une excellente alternative aux
problèmes d'argents et connaissances.

Aujourd'hui, je souhaite m'attarder en particulier sur le service Webnode qui a
attirè mon attention par le lait qu'il est vraiment très simple d'utilisation. Ce
service regroupe dèja plus de 10 millions de sites internet crèè et il est
disponible en 22 langues.

Comment ça marche ?

La dèmarche est simple, dans un premier temps, rendez-vousjuste

sur www.webnode.lr et inscrivez-vous.


J'ai agrandi la taille de l'image avec Kolourpaint, menu Image > redimensionner (il y a sans aucun doute une commande imagemagick pour faire ça), en la passant d'une hauteur de 386 à une hauteur de 600 px en gardant les proportions et je l'ai enregistrée sous le nom texte2.png
la commande

tesseract texte2.png -l fra output2 && libreoffice output2.txt


me retourne ce résultat qui comporte moins d'erreurs :

resultat2 a écrit :

Comment faire lorsque l'on n’a aucune connaissance dans le domaine de la
création de sites web ?

La solution la plus simple et rapide est de faire appel à une agence de
création de site web, une agence de communication. un indépendant.

etc”. C'est une solution viable mais qui vous coûtera très cher l

Alors comment faire lorsque l'on n'a pas de connaissance et pas (peu) de
budget?

Internet regorge de solutions et de services qui proposent de créer des sites
web simplement et gratuitement ce qui est une excellente alternative aux
problèmes d'argents et connaissances.

Aujourd'hui, je souhaite m'attarder en particulier sur le service Webnode qui a
atlirè mon attention par le fait qu'il est vraiment très simple d'utilisation. Ce
service regroupe déjà plus de 10 millions de sites internet créé et il est
disponible en 22 langues.

Comment ça marche ?

La démarche est simple. dans un premier temps. rendez-vous juste

sur www.webnode.fr et inscrivez-vous.


en passant à une hauteur de 1200, je n'ai plus d'erreur (plus rien de souligné dans libreoffice en dehors de webnote) :

resultat3 a écrit :

Comment faire lorsque l'on n'a aucune connaissance dans le domaine de la
création de sites web ?

La solution la plus simple et rapide est de faire appel à une agence de
création de site web, une agence de communication, un indépendant,

etc... C'est une solution viable mais qui vous coûtera très cher!

Alors comment faire lorsque l'on n'a pas de connaissance et pas (peu) de
budget ?

Internet regorge de solutions et de services qui proposent de créer des sites
web simplement et gratuitement, ce qui est une excellente alternative aux
problèmes d'argents et connaissances.

Aujourd'hui, je souhaite m'attarder en particulier sur le service Webnode qui a
attiré mon attention par le fait qu'il est vraiment très simple d'utilisation. Ce

service regroupe déjà plus de 10 millions de sites internet créé et il est

disponible en 22 langues.

Comment ça marche ?

La démarche est simple, dans un premier temps, rendez-vous juste
sur www.webnode.fr et inscrivez-vous.

Hors ligne

#4 01-07-2017 16:22:10

ideefixe
Membre
Lieu : Berry
Distrib. : Emmabuntüs Debian Edition
(G)UI : Xfce
Inscription : 17-10-2015
Site Web

Re : Tesseract-ocr outil pour les dyslexiques

Bonjour Chalu smile

As-tu déjà essayé les scripts de AccessDV-Linux qui sont dans système de fichiers/home/ADVLinux/Mscripts ?

https://debian-facile.org/utilisateurs: … ssdv-linux

Hors ligne

#5 01-07-2017 16:46:42

chalu
Modératrice
Lieu : Anjou
Distrib. : openSUSE Tumbleweed
Noyau : Linux 5.12
(G)UI : KDE 5.21.4
Inscription : 11-03-2016

Re : Tesseract-ocr outil pour les dyslexiques

Re bonjour ideefixe smile
Oui j'ai testé accessdvlinux mais sur virtualbox.
J'ai testé la machine à lire. Je ne peux pas vérifier car j'ai supprimé depuis cette distribution mais il est probable que les scripts dont tu parles soient ceux qui interviennent dans les menus par clic-droit pour les différentes entrées de la machine à lire.
Je ne pense pas que ce soit lié à virtualbox, j'ai noté le même inconvénient que celui de mon message précédent, à savoir que si l'image est trop petite il y a des erreurs de reconnaissance.
Sur un scan de bonne qualité, ça marche comme ça marche avec la ligne de commande ci-dessus.
Je n'ai pas vu de différence de résultats sauf que c'est automatisé, bien sûr je n'ai pas fait des milliers de tests non plus !
Je ne sais pas si on peut récupérer les scripts sans tout réinstaller et je n'ai pas envie de le faire (ni trop le temps pour être honnête).

Pour le wiki que tu as créé, il me semble qu'il y aurait quelques précisions à faire pour les éventuels testeurs. Pour l'instant la distribution accesdvlinux n'a pas vraiment ses propres dépôts et ceux activés par défaut sont ceux de Jessie + 1 dépot pour compiz mais il y a de très nombreux paquets du système qui proviennent de stretch. Par exemple le noyau utilisé est en version 4.2.6.3 du 14/12/2015. Il n'y a donc pas de mises à jour pour tous ces paquets.
L'administrateur m'a indiqué que ce n'était pas un problème et que pour eux "tout allait bien" et que ce serait réglé "en temps utile" mais je trouve quand même que l'utilisateur doit le savoir. Pour ma part, c'était la première fois que je testais une distribution qui n'avait pas des éléments clés du système rattachés à un dépôt pour les mises à jour. Je pense que tout ceci est encore en l'état car je viens de vérifier et je n'ai pas vu sur le site de changements pour l'ISO ou pour les mises à jour.

Hors ligne

#6 01-07-2017 16:55:28

ideefixe
Membre
Lieu : Berry
Distrib. : Emmabuntüs Debian Edition
(G)UI : Xfce
Inscription : 17-10-2015
Site Web

Re : Tesseract-ocr outil pour les dyslexiques

Merci Chalu smile
Si je comprends bien, les scripts pour la machine à lire sont propres à AccessDV-Linux et ne peuvent pas fonctionner sur une Debian classique ?

Hors ligne

#7 01-07-2017 16:58:13

chalu
Modératrice
Lieu : Anjou
Distrib. : openSUSE Tumbleweed
Noyau : Linux 5.12
(G)UI : KDE 5.21.4
Inscription : 11-03-2016

Re : Tesseract-ocr outil pour les dyslexiques

Je n'ai pas dit ça smile J'ai dit que je ne les ai pas regardés et que je ne les ai plus tongue
Il y a peut-être des choses à modifier mais ils sont faits pour une debian donc je ne vois pas pourquoi ça ne pourrait pas s'adapter.

Hors ligne

#8 01-07-2017 17:03:14

ideefixe
Membre
Lieu : Berry
Distrib. : Emmabuntüs Debian Edition
(G)UI : Xfce
Inscription : 17-10-2015
Site Web

Re : Tesseract-ocr outil pour les dyslexiques

J'aimerais bien que le développeur de AccessDV-Linux publie un tutoriel pour présenter ses scripts, leur fonctionnement, pour que tout le monde bénéficie de son travail et puisse l'adapter sur d'autres distributions GNU/Linux, notamment PrimTux-Dys.

Hors ligne

#9 01-07-2017 17:13:36

chalu
Modératrice
Lieu : Anjou
Distrib. : openSUSE Tumbleweed
Noyau : Linux 5.12
(G)UI : KDE 5.21.4
Inscription : 11-03-2016

Re : Tesseract-ocr outil pour les dyslexiques

Tu as les clés installés ? si c'est oui tu dois pouvoir regarder ces scripts et voir s'il y a possibilité de les adapter. Qu'est-ce que tu voudrais avoir sur primtux comme fonctionnement ?

Edit : il a publié un article sur github pour accesdvlinux avec l'adresse, je pensais que c'était pour montrer les sources mais je n'ai accès qu'à accessdvlinux_off et pas à accessdvlinux donc je n'ai pas compris à quoi ça sert. Il faut peut-être se connecter. Bon d'un autre côté, ça dépasse largement mes connaissances roll
Et tu peux lui demander sur son forum pour l'utilisatio et/ou le fonctionnement des scripts.

Hors ligne

#10 01-07-2017 18:53:54

ideefixe
Membre
Lieu : Berry
Distrib. : Emmabuntüs Debian Edition
(G)UI : Xfce
Inscription : 17-10-2015
Site Web

Re : Tesseract-ocr outil pour les dyslexiques

j'ai demandé de l'aide sur leur forum.

Dernière modification par ideefixe (01-07-2017 19:28:37)

Hors ligne

#11 01-07-2017 19:30:19

chalu
Modératrice
Lieu : Anjou
Distrib. : openSUSE Tumbleweed
Noyau : Linux 5.12
(G)UI : KDE 5.21.4
Inscription : 11-03-2016

Re : Tesseract-ocr outil pour les dyslexiques

Les scripts sont sûrement mis dans un dossier système pour pouvoir être utilisés par un nouvel utilisateur créé. Tu as bien fait de poser la question sur leur forum, c'est le meilleur moyen pour obtenir la bonne réponse smile

Hors ligne

#12 01-07-2017 22:03:39

ideefixe
Membre
Lieu : Berry
Distrib. : Emmabuntüs Debian Edition
(G)UI : Xfce
Inscription : 17-10-2015
Site Web

Re : Tesseract-ocr outil pour les dyslexiques

Merci Chalu pour ton aide. smile

Mélanie, utilisatrice d'AccessDV-Linux m'a guidé pour que je trouve ces scripts.
Voici le chemin pour les trouver et les récupérer (moins de 800 Ko). wink

Hors ligne

Pied de page des forums