Tesseract OCR, texte non reconnu

Fermé
Utilisateur anonyme - 7 déc. 2014 à 20:13
 Utilisateur anonyme - 9 déc. 2014 à 21:48
Bonjour,

J'essaie de faire reconnaître un fichier texte à Tesseract OCR, qui pourra contenir du texte encodé en base64. Je fais un premier essai avec une image PNG issue d'un scan qui contient le texte

Ceci est un test. 0123456789
ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz

Le résultat fourni par Tesseract :

Ceci est un test. 0123456789<caractères bizarres aléatoires>

Donc il reconnait bien la première ligne mais pas la deuxième qui pourant est écrite avec la même police (Courrier New). A mon avis ce qui se passe c'est qu'il essaie avant tout de repérer des mots français (normal si je lui dis d'utiliser le dictionnaire français). Mais comment faire pour faire reconnaître n'importe quel texte qui ne veut pas forcément dire quelque chose? Quelqu'un a une idée?

A voir également:

1 réponse

contrariness Messages postés 19433 Date d'inscription samedi 10 juillet 2010 Statut Membre Dernière intervention 26 avril 2024 6 052
7 déc. 2014 à 23:10
Si votre texte est sous forme d'image, il vous faut d'abord le remettre en tant que texte ASCII... ensuite vous pourrez le decoder du format MIME (base64)

Le probleme de l'OCR c'est qu'il cherche a analyser les mots par rapport a la forme du caractere combine a une bibliothèque de mots en fonction du langage. Donc il y a de grande chance qu'en sortie d'OCR le texte soit totalement different de la source..

Je crois que le soft Omnipage Pro permet de choisir le style de reconnaissance et peut-etre d'eviter la recherche orthographique..
0
Utilisateur anonyme
9 déc. 2014 à 21:48
Bonjour, c'est le problème, Tesseract va à mon avis par défaut rechercher du texte qui veut dire quelque chose, et pas une suite de caractères qui n'a pas été prévue pour être lue par un humain, j'ai un peu cherché pour voir si des options existent pour qu'il reconnaisse des caractères de manière séparée et non des mots.
0