Rechercher : dans
Par :

Récupérer le texte d'un PDF sous DELPHI

Dernière réponse le 16 nov 2009 à 23:46:34 Leam, le 16 nov 2009 à 23:34:32 
 Signaler ce message aux modérateurs

Bonjour,

Je souhaite scanner le texte présent dans les fichiers PDF de mon Disque Dur.

Sous OpenOffice j'ai écris cette phrase :
"Bonjour
Ceci est une phrase pour savoir si je suis capable de la retrouver dans un fichier PDF."

Puis je l'ai enregistré en PDF.

Après plusieurs essai j'ai réussi à décompresser (Méthode DEFLATE) le texte entre les balises STREAM et ENDSTREAM du PDF.

Entre deux autres balises chaque caractère est numéroté à gauche, sa valeur hexa est noté à droite:
"start"
<01> <0042>
<02> <006F>
<03> <006E>
...
"end"
Impossible de se tromper le code est très bien décompressé !!

Le problème c'est que je n'ai que 25 caractères au lieu des 95 env obtenus précédemment ???

J'ai ajouté une fonction qui transforme les valeurs hexa en décimal, puis en caractères...

La phrase obtenue est : "BonjurCeci stphvbldfPDF."

J'en conclu que le texte est codé...

Est ce que quelqu'un sait pourquoi j'obtiens ce résultat ?

Configuration: Windows Vista
Firefox 3.5.5

Meilleures réponses pour « Récupérer le texte d'un PDF sous DELPHI » dans :
[Logiciels] Extraire toutes les images d'un PDF VoirVoici comment extraire toutes les images d'un fichier PDF. Avantage de cette méthode sur http://www.commentcamarche.net/faq/sujet-1036-: Les images sont extraites tel quel, sans perte de qualité (Par exemple, les JPEG sont extraits tel quel du...
Archiver plusieurs fichiers en un seul VoirCette astuce explique comment réunir (archiver) plusieurs fichiers en un seul, pour les manipuler plus facilement et les envoyer par mail, par exemple. Dans cet exemple, nous avons plusieurs photos que nous voulons partager. Pour cela nous allons...
Créer un fichier PDF VoirUn fichier PDF (abréviation de Portable Document Format) est un document pouvant contenir texte, dessins, images noir et blanc, en couleur ou en 3D, photos et éventuellement des fonctions de traitement. Le format PDF est un format ouvert,...
Télécharger Some PDF Image Extract VoirLes documents PDF peuvent comporter du texte, des graphes, des tableaux mais aussi des images. Étant donné qu'il n'est pas possible d'en modifier le contenu, il en est de même pour l'extraction d'une image du contenu du document. Some PDF Image...
Transformations de XML avec XSLT VoirXSLT et XSL/FO XSL (eXtensible Stylesheet Language) possède deux composantes : XSLT, eXtensible Stylesheet Transformation XSL/FO, eXtensible Stylesheet formatting le langage de transformation des données (XSLT, eXtensible Stylesheet...

1

Leam, le 16 nov 2009 à 23:45:31

Merci à toutes aides !!

Répondre à Leam

2

 Leam, le 16 nov 2009 à 23:46:34

Merci à toutes aides !

Répondre à Leam
Collection CommentÇaMarche.net