Je suis en train de modifier un vieux document de 140 pages tapé à la machine à écrire en ... 1972.
il s'agit du Règlement de ma copropriété, qu'il faut modifier pour raisons légales.
Je ne comprend pas votre souci : Après avoir scanné les 140 pages hier samedi, je suis en phase de correction sous traitement de texte (dimanche).
Je vous explique :
1/ Installer "tesseract" (voir
http://code.google.com/p/tesseract-ocr/ et les liens download), un des meilleurs logiciels OCR développé par Hewlett-Packard puis abandonné dans le monde Open Source)
2/ mettre en oeuvre le script "xsane2tess" (description sur
http://doc.ubuntu-fr.org/xsane2tess)
3/ Ceci permet de scanner avec Xsane avec un résultat en mode *.txt exploitable par n'ilmporte quel éditeur ou traitemennt de texte: La sortie de Xsane est "pipée" avec le script xsane2tess, qui lui-même "pipe" vers tesseract. Perso, j'utilise OpenOffice Writter, et il y a juste à passer un coup de correcteur d'orthographe/grammaire (ben oui: certains "B" sont transformés en "8", des "4" en "h", etc.) mais rien d'insurmontable.
Ah! j'oubliais : Il faut évidement être sous Linux (n'importe quelle distribution. La mienne, c'est Debian). Vous pouvez utiliser un live-CD ou une live-clé-USB (pour cela, voir l'excellent "unetbootin")
Sinon, avec la *merde* de logiciel livrée avec votre scanner, vous n'obtiendrez qu'une ....photocopie (donc image!) de votre document. Retouchable "The Gimp", mais je ne vois pas l'intérêt.