Extraire le texte en gras d'un pdf

Fermé
Duke_Manson Messages postés 4 Date d'inscription samedi 11 juin 2016 Statut Membre Dernière intervention 13 juin 2016 - 11 juin 2016 à 20:21
Duke_Manson Messages postés 4 Date d'inscription samedi 11 juin 2016 Statut Membre Dernière intervention 13 juin 2016 - 13 juin 2016 à 22:58
Bonjour,


Je cherche une méthode qui me permettrait d'extraire le texte se trouvant en gras dans un pdf (non protégé). Je ne suis pas un as de la programmation, je sais bricoler un peu les regex, mais je n'ai vraiment rien trouvé.

Quelqu'un pourrait-il m'aider?
A voir également:

4 réponses

Raymond PENTIER Messages postés 58461 Date d'inscription lundi 13 août 2007 Statut Contributeur Dernière intervention 30 mai 2024 17 121
12 juin 2016 à 05:20
Oui : Copier-coller ! C'est l'unique méthode ...
1
Duke_Manson Messages postés 4 Date d'inscription samedi 11 juin 2016 Statut Membre Dernière intervention 13 juin 2016
12 juin 2016 à 16:36
Merci, mais cela ne m'aide pas.
0
contrariness Messages postés 19505 Date d'inscription samedi 10 juillet 2010 Statut Membre Dernière intervention 28 mai 2024 6 067
13 juin 2016 à 00:45
C'est pourtant une methode qui marche..

Mais, au collage, conserver les polices et le style sont fonction des possibilites du logiciel dans lequel vous faites la copie, et si la police de caractere utilisee dans le PDF est egalement dispo sur le poste de travail.
0
Raymond PENTIER Messages postés 58461 Date d'inscription lundi 13 août 2007 Statut Contributeur Dernière intervention 30 mai 2024 17 121
13 juin 2016 à 03:13
Je t'ai indiqué l'unique méthode que je connaisse.
Si tu tiens à ce que quelqu'un t'en propose une, attend patiemment ...
Si tu sais qu'il en existe, continue à chercher tous azimuts, partout ...
0
Duke_Manson Messages postés 4 Date d'inscription samedi 11 juin 2016 Statut Membre Dernière intervention 13 juin 2016
13 juin 2016 à 07:37
Je me suis peut-être mal exprimé alors.

Copier/coller, je pense que personne n'a besoin d'aide pour faire cela.

Dans mon cas c'est plusieurs dizaines de milliers d`éléments que je voudrais extraire, il est impensable que je fasse cela à la main. Je cherche un méthode qui permettrait de faire cela automatiquement.
0
contrariness Messages postés 19505 Date d'inscription samedi 10 juillet 2010 Statut Membre Dernière intervention 28 mai 2024 6 067
13 juin 2016 à 09:31
J'ai bien peur qu'il ne soit pas possible de faire cela de facon automatique....

Le format PDF est en fait un langage de programmation qui permet la description d'une page. Chaque page est decrite par rapport au point de reference en bas a gauche. C'est une evolution du langage postscript (dont il reprend certaines instructions).

Ce principe empeche la selection simultanee de texte ou d'objet dans plusieurs pages a la fois.
Certains outils specifiques (Pitstop, OneVision) permettent la selection simultanee, mais uniquement a l'interieur de la page, et la copie se faisant sous forme d'objet (et non pas de texte) coller dans un autre logiciel n'est pas possible. On reste bride a la modification a l'interieur du document (coller dans un autre fichier PDF n'est egalement pas possible).

Pour recuperer du texte, le copier/coller est encore la meilleur solution, Dans le cas ou se sont des objets, on peut supprimer les texte et re-importer les pages modifiees dans un soft de mise en page.

Ca prend du temps, mais un graphiste ne travaille pas gratuitement... le client doit le comprendre.
0
Duke_Manson Messages postés 4 Date d'inscription samedi 11 juin 2016 Statut Membre Dernière intervention 13 juin 2016 > contrariness Messages postés 19505 Date d'inscription samedi 10 juillet 2010 Statut Membre Dernière intervention 28 mai 2024
13 juin 2016 à 22:58
Merci pour cette réponse détaillée (dont certains détails sont bien au-dessus de mes compétences).

J'ai tenté le c/c dans un traitement de texte ; j'ai en effet une erreur liée à la police mais à ce que je comprends c'est que le fichier d'origine a un défaut. Je vais essayer de me débrouiller autrement, ou comme je peux.

Merci à tous de votre aide.
0