A voir également:
- Police / PDF
- Lire le coran en français pdf - Télécharger - Histoire & Religion
- Police facebook - Guide
- Comment faire un pdf - Guide
- Save as pdf - Télécharger - Bureautique
- Comment modifier un pdf - Guide
4 réponses
epsilon17
Messages postés
83
Date d'inscription
samedi 19 mars 2005
Statut
Membre
Dernière intervention
8 avril 2013
55
19 oct. 2005 à 16:28
19 oct. 2005 à 16:28
a tu fait ton cop/coller dans word directement?
si oui a tu aussi essayé dans le bloc notes aussi?
si oui a tu aussi essayé dans le bloc notes aussi?
Pour les caractères accentués, c'est un problème d'encodage (iso8859-1 <-> utf-8) donc il faut peut-être que le document destinataire (le traitement de texte) soit dans le bon encodage.
J'ai vu ton message parce que je me demandais si on pouvait extraire la police du document. Pas de chance, si le format semble strandard (ttf...) les polices sont "remappées" c'est à dire que ne sont inclus que les caratères utilisés pour des raisons compréhensibles de gain de place.
Il y a des outils pour extraire les textes, mais c'est plus ou moins performant suivant les documents parce qu'il y a la mise en page et tout le reste. Sous Linux, kword fonctionne de manières assez satisfaisante sur des documents simples.
Sinon, une solution assez bonne est d'utiliser un OCR, un logiciel de reconnaissance de caractères, qui savent souvent lire un document PDF. Quand on achète un scanner, on peut avoir un logiciel utilisable pour ça, avec une lecture correcte même si le texte est une image et non une police, et avec une conservation de la mise en page. Evidement, c'est plutot Windows/Mac, sous Linux on a enfin un bon outil d'OCR nommé Tesseract mais je ne connais pas d'outil pour conserver la mise en page et les graphiques, en tout cas non payant.
J'ai vu ton message parce que je me demandais si on pouvait extraire la police du document. Pas de chance, si le format semble strandard (ttf...) les polices sont "remappées" c'est à dire que ne sont inclus que les caratères utilisés pour des raisons compréhensibles de gain de place.
Il y a des outils pour extraire les textes, mais c'est plus ou moins performant suivant les documents parce qu'il y a la mise en page et tout le reste. Sous Linux, kword fonctionne de manières assez satisfaisante sur des documents simples.
Sinon, une solution assez bonne est d'utiliser un OCR, un logiciel de reconnaissance de caractères, qui savent souvent lire un document PDF. Quand on achète un scanner, on peut avoir un logiciel utilisable pour ça, avec une lecture correcte même si le texte est une image et non une police, et avec une conservation de la mise en page. Evidement, c'est plutot Windows/Mac, sous Linux on a enfin un bon outil d'OCR nommé Tesseract mais je ne connais pas d'outil pour conserver la mise en page et les graphiques, en tout cas non payant.
epsilon17
Messages postés
83
Date d'inscription
samedi 19 mars 2005
Statut
Membre
Dernière intervention
8 avril 2013
55
18 oct. 2005 à 15:02
18 oct. 2005 à 15:02
quel est le but?
recuperer le texte?
recuperer le texte?