Extraire les infos d'un pdf pour les enregistrer dans la BD

Fermé
polko123 Messages postés 1 Date d'inscription mardi 19 juillet 2016 Statut Membre Dernière intervention 19 juillet 2016 - 19 juil. 2016 à 19:55
pierre.lagoutte Messages postés 35 Date d'inscription mercredi 20 juillet 2016 Statut Membre Dernière intervention 29 septembre 2016 - 20 juil. 2016 à 11:53
Bonjour
je travail sur un système GED pour mon stage accademique. j'ai rencontrer un Pb au niveau d'extraction des données d'un pdf pour l'enregistrer dans une base de de donnée.
j'aimerai savoir si vous avez une idée pour pour cette extraction


A voir également:

1 réponse

pierre.lagoutte
19 juil. 2016 à 23:54
Bonjour,

Je n'ai jamais travaillé sur cet aspect... Essayez d'ouvrir votre PDF avec un bloc-notes afin de voir si les infos à extraire sont présentes en clair. Si oui, vous devriez vous en sortir avec le regex.

Désolé de ne pas vous donner une réponse plus précise, je n'ai jamais travaillé sur la manipulation de fichiers PDF.

Cordialement
0
Whismeril Messages postés 19030 Date d'inscription mardi 11 mars 2003 Statut Contributeur Dernière intervention 27 avril 2024 931
20 juil. 2016 à 07:36
Bonjour

imaginons que je sache extraire des données d'un pdf en PHP (ça n'est pas le cas)
En passant sur le forum je vois ça


Une question bien titrée, en PHP, je connais la réponse, mais pierre.lagoute y a déjà répondu, pas besoin que j'aille voir.

Répondre qu'on ne sait pas n'apporte rien au demandeur si ce n'est une fausse joie quand il voit que quelqu'un a répondu.
Et pour ceux qui savent répondre, un certain nombre ne lira pas la question, pensant le sujet pris en main.
0
pierre.lagoutte Messages postés 35 Date d'inscription mercredi 20 juillet 2016 Statut Membre Dernière intervention 29 septembre 2016 5
20 juil. 2016 à 10:03
Bonjour,

J'ai apporté un élément de réponse : si le texte qu'il veut extraire se trouve en clair dans le fichier "source" du PDF, il suffisait d'analyser ce fichier source avec des regex pour en extraire l'information.

Je n'ai pas la réponse entière, certes, mais ça ne m'empêche pas de doonner ce que je sais.
0
Whismeril Messages postés 19030 Date d'inscription mardi 11 mars 2003 Statut Contributeur Dernière intervention 27 avril 2024 931 > pierre.lagoutte Messages postés 35 Date d'inscription mercredi 20 juillet 2016 Statut Membre Dernière intervention 29 septembre 2016
20 juil. 2016 à 11:30
Sauf qu'un pdf est un fichier binaire, pas ascii.
Donc quand on l'ouvre avec le bloc note ça affiche des hiéroglyphes....
0
pierre.lagoutte Messages postés 35 Date d'inscription mercredi 20 juillet 2016 Statut Membre Dernière intervention 29 septembre 2016 5
20 juil. 2016 à 11:53
Pas de soucis, je vous invite donc à répondre à polko123.
0