OCR vous dites ? Non, on ne fait pas (bien)(du tout)...

 Mise à jour !

 Lisez les commentaires, la situation a évolué depuis la parution du billet !

Je ferais un billet au plus vite :) 

OCR ?

Pris de l’envie d’éviter de recopier tout le texte d’un énoncé pour mon rapport de physique, j’ai eu envie de faire un petit OCR [reconnaissance optique de caractères, pour plus de détails, allez voir la wikipedia !]. Après ma belle feuille scannée (avec un autre pc), Je précise que le texte est en français et ne comportait aucun petit signe rigolo (par exemple vecteur) ni formules qui aurait pu perturber le système de reconnaissance. Peut être les accent seraient perturbeurs (?), les programmes d’OCR étant généralement programmés par des anglophones.

Vue d’ensemble des programmes

Quand je cherche quelque un programme, je fait comme ça :
  • Première chose , regarder dans la doc d’ubuntu. Rien.
  • Deuxième chose : Les forums d’ubuntu On y parle de gocr, clara, et ocrad (je parle pas des autres qui sont des frontend à ces outils en ligne de commande). Tous sont disponibles sur les dépôts de votre distribution préférée (ubuntu)
  • Troisième élément : Le planet. On y trouve une info sur sur BlogNote-Info un billet sur tesseract.
  • On essaie avec google… et on tombe toujours sur les même programmes. La bonne nouvelle, c’est que la communauté Ubuntu-Fr permet une bonne information sur ubuntu, vu que presque tout y est.

Dans la pratique

  • Essai avec tesseract.
On commence par ce que j’ai trouvé sur le planet : D’abord il faut compiler le programme. C’est pas que c’est la mort, surtout pour moi, mais ceux qui n’ont de très bonnes notions en ce domaine se voient déjà coincé Maque ? C’est quoi ?. En plus, la compilation ne fonctionne pas en amd64 (vagues erreurs dans le code), alors j’ai du utilisé mon chroot. Un quoi ? Après une compilation bourrée d’avertissement en tout genres, et un fichier même pas rangé au bon endroit (heureusement que l’article sur le planet indiquait ou il se trouve…), il semblerait que le programme soit des plus simple à utiliser et user-friendly en ligne de commande :

@:/./tesseract –help
./tesseract:Error:Usage:./tesseract imagename outputbase [configfile [[+|-]varfile]…]

Signal_exit 25 ABORT. LocCode: 3 AbortCode: 0


Après avoir comprit ou se trouvait l’aide, et après avoir compris qu’il faut utiliser des BMP (encore trouvé sur l’article du planet)(merci GIMP !) quand il marque ceci ..

name_to_image_type:Error:Unrecognized image type:/media/GLU/1.png
IMAGE::read_header:Error:Can’t read this image type:/media/GLU/1.png
./tesseract:Error:Read of file failed:/media/GLU/1.png
Signal_exit 31 ABORT. LocCode: 3  AbortCode: 3

, surtout que marquer Unrecognized image type, please use BMP et rien d’autre serait trop compréhensible du premier abord, on arrive à un résultat… bourré de fautes de reconnaissances.
  • Essai avec gocr
Suivant, gocr le moins pire. Pas besoin de faire de compilation, reconnaît mon gentil PNG, possède une aide correcte, facile à utiliser, mais le résultat est inutilisable avec le tas de faute (ça reste celui qui en à fait le moins), autant le taper moi-même, ça ira plus vite de tout relire. En plus, les fatues comme ça on ne les vois presque jamais…
  • Essai avec clara
En suite, Clara. Premier lancement, un truc hyper moche en GTK primaire s’affiche, et impossible à comprendre du premier abord. Retour à la ligne de commande, tentative de communication avec le programme :

@:/ clara –help
clara: invalid option – -
Clara fatal error type 1 (data inconsistency)

Lui aussi se classe dans la catégorie mon-interlocuteur-est-un-geek-alors-je-parle-comme-lui, heureusement qu’une page de MAN est disponible, qui indique qu’il faut des images en pbm ou pgm, ok, et que GIMP est encore la et sait faire des pgm. Je vais dans le dossier, il trouve mon image, je clique sur le bouton OCR, et il me répond 0 words founds (zéros mots trouvés). Joie bonheur, et programme suivant par la même occasion.
  • Essai avec ocrad
Pour terminer, ocrad. Bonne nouvelle, une aide est présente. Il ne veut que des pgm, mais c’est pas grave, j’ai déjà convertis mes images avant. Le résultat de sortie est superbe: 90% de | et de ¦, le reste étant une alignée de caractères aléatoires, compris dans la table des 255 de base….

Conclusion

Sous linux l’OCR ? Impossible. Inutilisable. Nul. C’est peut être pas gentil, mais rien ne m’a convenu (rien n’est utilisable), ce qui est plutôt rare. Soit je n’ai pas assez cherché (vous avez des noms de bons programmes ?), soit c’est un point à vraiment améliorer….

Comments

Tu as essayé avec Kooka ? http://kooka.kde.org/

sudo apt-get install kooka

(installé par défaut sous Kubuntu ;) )

++



touty, 2007-01-10 13:10:01

On pourrait dire la même chose de la capture vidéo du bureau sous "linux" (terme à prendre dans son acceptation la plus large). Mais pas de panique, c’est là que toute la puissance de l’open-source entre en jeu ! Tu as le code, tu peux alors tout modifier et faire un super programme super bien ……

(En fait si j’ai bien compris, le meilleur dans l’histoire c’est Gimp …)



Maxco, 2007-01-10 13:14:49

touty -> C’est un frontend, pas un OCR à lui tout seul…

Maxco -> Il n’est pas bien mon autre billet ;) ?



The_Glu, 2007-01-10 13:16:47

j’ai de très bon resultat avec gocr / peu de faute en général. J’ai souvenir d’un texte qui avait foiré avec lui. j’ai simplement rescanner le texte en 2 parties et fais une reconnaisance des 2 images. Le resultat convenait mieux :) Le sens de l’image joue bcp également si ca peut aider. Mais c’est clair que les solutions des autres sytèmes sont plus efficace en général



NaWer, 2007-01-10 13:39:28

Il me semble avoir lu une news sur LinuxFR parlant de la libération probable d’une librairie OCR par IBM (ou un autre ?). L’auteur de la news disait en gros que c’était prometteur, car l’OCR libre c’était pas vraiment ça…



Florent V., 2007-01-10 14:13:33

Tesseract n’est peut être pas le meilleur pour le moment, mais il a un plus large potentiel. S’il fait des erreurs en français, c’est que la reconnaissance des accents n’a pas encore été implémentée. Il est très bon en anglais (il avait été primé quand il était encore en closed source)

Au niveau de l’interface, va voir dans les forums, ils ont crée des petits scripts de conversion et d’interface à la ligne de commande avec ImageMagick et Glade.

DE plus, un universitaire bordelais va faire travailler ses étudiants dessus cette année pour l’améliorer.

Enfin last but not least, ce logiciel est soutenu par Google.



Pierre S, 2007-01-10 14:18:01

@maxco, recordmydesktop est très bien pour la capture vidéo de bureau :) http://recordmydesktop.sourceforge....



Scullder, 2007-01-10 14:38:40

J’ai crée cette fichue page. Venez-tous la completer! http://doc.ubuntu-fr.org/ocr



Pierre S, 2007-01-10 14:42:27

Tu m’évites toute une batterie de tests. Merci :)



MrTom, 2007-01-10 16:21:33

Plus d’infos sur la libération de Tesseract par HP et Google :

http://google-code-updates.blogspot...



Opoho, 2007-01-10 18:57:03

bonjour,

dans Xsane il y a une fonction OCR également qui n’est pas parfaite mais donne quand même un résultat satisfaisant. néant moins je vais quand même creuser sur les OCR citez ici ;)



geantick, 2007-01-10 19:14:00

geantick -> C’est aussi un frontend ! Il utilise gocr derrière… Je sais pas si ta faute d’orthographe est volontaire (néant moins), mais c’est quand même une bonne illustration de l’ORC sous linux ;).



The_Glu, 2007-01-10 19:23:32

effectivement, je n’avais pas trop chercher à savoir ce qu’il y avait derrière xsane ^^ pour la faute d’orthographe il y a pas mal de temps elle était volontaire et maintenant de temps en temps je la fais sans men rendre compte :/ et oui il est vrai que c’est un bon exemple.



geantick, 2007-01-10 22:47:48

J’ocrise (sic) régulièrement mes documents avec xsane et je n’ai aucun problème avec les documents en françai et en 600 DPI, c’est quasi parfait.:$



racoon97, 2007-01-11 06:27:44

Il existe un logiciel gratuit sur Windows qui fonctionne parfaitement bien sous Linux avec Wine : simpleOCR.

Je ne crois pas qu’il soit libre, mais bon, ça dépanne.

Bien meilleur que tout ce qui existe pour l’instant sous Linux (à part Clara, mais Clara est un truc ultra-spécialisé parfaitement inutilisable).



Camille Bourgoin (alias “Mesmento”), 2007-01-12 11:22:16

Merci pour le sujet, j’ai bien ri :D



illovae, 2007-01-13 11:45:43

Moi, j’ai plutôt pleuré !
J’ai déjà subi le même chemin de croix il y a 3 mois, et le moins que l’on puisse dire c’est que la situation de l’ OCR sur Linux est décevante.
Je garde mon double boot pour pouvoir utiliser mon bon vieux Textbridge version 3 qui m’a été fourni avec mon scanner il y a 5 ans. Ça me garantit un taux de reconnaissance élevé (3 à 10 erreurs par A4) en français ou en allemand.
Depuis Textbridge est passé à la version 11 avant d’être racheté par Omnipage qui lui doit en être à sa version 16 et fait des reconnaissance à plus de 99.5%.
Mais ça coûte plus de 3000 € ; les boules !!!
Dès qu’un OCR de qualité sort pour Unix/linux, je fonce.
Mais j’en doute le savoir-faire et les investissement sont colossaux!

Salut à tous



phavet, 2007-01-15 17:41:01

Un bon exemple valant mieux qu’un long discours, j’ai effectué un scan de la quatrième de couverture de mon dernier livre de poche (L’ange Gabiel de Bernard Lenteric) en niveau de gris et 320 points/pouce. Comme souvent pour le livre de poche cette page contient en haut et à droite une réduction de l’image de couverture. La dernière phrase est en italique !
J’ai ensuite soumis le fichier PNG à trois logiciel d’OCR disponibles sous linux, deux logiciel open source dont il a déjà été question et un logiciel propriétaire fonctionnant en ligne de commmande (version d’essai, coût du programme 995 $)
———————————————————————————
OCRAD
—————————
n

Gabriel, alias <<Gab>> c’est pou
± . ‘ .. . Lous les enfants la ba y-sitter par-
‘Anqe Gabrial faite ou le grand frèr idéal : un
, , robot intelligent qui peut aussi bíen
aider à faire les devoirs que jouer
’ aux échecs, préparer à dîner ou
<br /> , consoler un gros chagnn.<br /> ' ' En le dotant d?n cerveELu auto-
‘, ’ nome, son inventeur, Zef Menzel,
` un ínfomaticien de génie, a égale-
ment muní Gab d’une conscíence morale, un pro-
gramme qui ui ínterdit à Luut jElmais de nuire aux
humains.
Pour facíliter sa fabrication en série, Ted Gliver, le
Ñeil ami de Zef, Lout-puissant P.-D.G. de la première
rTrme mondiale d’informatique, a supprimé ce logicíel
de bonne conduite
Et lorsque des milliers de <<Gabs>> cessenL- d’obéir, le
rêve technologiquc tourne au cauchemar.

avouyer enêtys closes e oyes oigneNse*en uey-
oNillées. .
———————————————————————————-
GOCR
——————————-
(PICTURE)(PICTURE)

Gabriel, alias <cGab>>, c’est pour
tous les enfants la baby-sitter par-
faite ou le _and frère idéal : un
robot intelligent qui peut aussi bien
aider à faire les devoirs que jouer
aux échecs, préparer à dîner ou
consoler un _os cha_n.
En le dotant d’un cerveau auto-
nome, son inventeur, Zef Menzel
un info_aticien de génie, a égale-’
ment muni Gab d’une conscience morale, un pro-
_amme qui lui interdit à tout jamais de nuire aux
humains.
Pour facíliter sa fabjcati’on en séje, Ted Gulliver, le
vieil ami de Zef, tout-puissant P.-D.G. de la première
firme mondiale d’informatique, a suppjmé ce lo_ciel
de bonne conduite.
Et lorsque des milliers de {KGabs>> cessent d’obéir, le
rêve technoloque tourne au cauchemar.

s__ourer _en\code(0135)re5 closes e _ore5 soigneusemen _er-
rouillje5…
————————————————————————————
OCR Shop XTR Lite (http://www.vividata.com)
——————————–
Gabriel, alias «Gab», c’est pour
tous les enfants la baby-sitter par-
faite ou le grand frère idéal : un
robot intelligent qui peut aussi bien
aider à faire les devoirs que jouer
aux échecs, préparer à dîner ou
consoler un gros chagrin.
En le dotant d’un cerveau auto-
nome, son inventeur, Zef Menzel,
un informaticien de génie, a égale-
ment muni Gab d’une conscience morale, un pro-
gramme qui lui interdit à tout jamais de nuire aux
humains.
Pour faciliter sa fabrication en série, Ted Gulliver, le
vieil ami de Zef, tout-puissant P.-D.G. de la première
firme mondiale d’informatique, a supprimé ce logiciel
de bonne conduite.
Et lorsque des milliers de « Gabs » cessent d’obéir, le
rêve technologique tourne au cauchemar.

A savourer frnètres closes et portes soigneusement ver-
rouillées…
————————————————————————————–
A vous de tirer les conclusions



pwrdesc, 2007-01-16 14:24:24
Alors pour tous ceux qui sont à la recherche d’un logiciel d’OCR qui marche , je vous conseilles de suivre ce tuto qui à été écrit il y a une semaine , chez moi ca marche reconnaissance 100 % sinon les statistiques montre la reconnaissance à 97 %

c’est basé sur Tesseract dernière version et rescriptés sur quelques détails avec une interface graphique de gscan2pdf , le bonheur : http://ubunteros.tuxfamily.org/spip.php?article148

eastwind, 2008-01-27 16:16:02


Salut the Glu…

Puisqu’on tombe toujours sur ce billet lorsqu’on “googlise” lors d’une recherche sur “ocr Linux”, si tu lis les commentaires, pourrais-tu l’actualiser ? Parce que les choses ont un peu changé depuis que tu l’as écrit, ily a plus d’un an :

[quote]Première chose , regarder dans la doc d’ubuntu. Rien.[/quote]

Maintenant : http://doc.ubuntu-fr.org/ocr

[quote]Deuxième chose : Les forums d’ubuntu On y parle de gocr, clara, et ocrad (je parle pas des autres qui sont des frontend à ces outils en ligne de commande). Tous sont disponibles sur les dépôts de votre distribution préférée (ubuntu)[/quote]

http://forum.ubuntu-fr.org/viewtopic.php?id=78804 voir tous les développements au-delà du 10 janvier 2007 ;-)

[quote]Troisième élément : Le planet. On y trouve une info sur sur BlogNote-Info un billet sur tesseract.[/quote]

Rien par la recherche dans Planet… et dans BlogNote-Info, le billet le plus récent (28 septembre 2006) reste celui sur tesseract : http://blognote-info.com/index.php?2006/09/28/483-ocr-open-source-grace-a-google

[quote]On essaie avec google… et on tombe toujours sur les même programmes.[/quote]

Et maintenant, on tombe aussi là : http://ubunteros.tuxfamily.org/spip.php?rubrique92

Voilà… Si ce n’est pas encore le top du top, on a maintenant plusieurs outils qui rendent un réel service de reconnaissance optique de caractères et permettent de gagner du temps… et on peut parier que les choses vont encore évoluer assez vite…

Sorbus, 2008-02-04 20:08:20


Bonjour à tous,

Je suis comme vous à la recherche d’un bon logiciel d’OCR. J’ai de nombreuses pages de bouquin à numériser.

Le message de pwrdesc, ci-dessus, est plutôt “choquant”. Il met en valeur des résultats pitoyables pour le libre.

J’ai essayé bon nombre des logiciels ci-dessus. La solution qui m’a apporté le plus grand confort est la suivante :

Je suis sous Debian Lenny. J’ai couplé gscan2pdf avec Tesseract (le tout est installable via Synaptic ou apt) en français et voyez plutôt :

Devant, sur les côtés, derrière, toujours l’éternelle muraille lugubre, au pied de laquelle le fleuve tourbillonnant précipite en incessants remous son eau fangeuse. Sur le paysage agressif règne un silence de mort. A la tombée du jour, cependant, sa beauté sombre et calme acquiert une majesté unique. Le soleil s’était déjà couché quand l’homme, à demi étendu au fond de sa barque, eut un violent frisson. Et soudain, étonné,il releva lourdement la tête : il se sentait mieux. Sa jambe lc faisait à peine souffrir, sa soif diminuait, et sa poitrine, libérée, s’ouvrait en une lente inspiration. Le venin commençait â se retirer, il n’y avait pas de doute. Il se sentait presque bien et, quoiqu’il n’eût pas la force de bouger la main, il comptait sur la chute de la rosée pour se remettre tout à fait. Il calcula qu’avant trois heures il serait à Tacuru Pucu. Son bien—être augmentait, et avec lui une somnolence pleine de souvenirs. Il ne sentait plus rien, ni ai la jambe, ni au ventre. Son compère Gaona vivait-il encore, â Tacuru Pucu? Peut-être verrait-il aussi son ex-patron, mister Dougald, et le receveur de la fabrique. Arriverait-il bientôt? Le ciel, au couchant, s’ouvrait mainte- nant comme un écran d’or, et le fleuve lui aussi s’était coloré. Depuis la côte paraguayenne, déjà plongée dans les ténèbres, la forêt laissait tomber sur le fleuve sa fraîcheur crépusculaire en pénétrants effluves de fleur d’oranger et de miel sylvestre. Un couple de perroquets passa très haut, en silence, vers le Paraguay. La-bas, en bas, sur le fleuve d’or, tournant quelquefois sur lui-même dans les remous d’un tourbillon, le canot dérivait rapidement. L’homme qui était dedans se sentait de mieux en mieux et pensait, entre autres, au temps exact qu’il avait passé sans voir son ex-patron Dougald. Trois ans? Peut-être pas, pas autant. Deux…

Pas mal, non ?

zarer, 2007-12-28 18:10:51