Convertir PDF en html

Résolu/Fermé
Utilisateur anonyme - 9 sept. 2009 à 21:53
 Utilisateur anonyme - 10 sept. 2009 à 21:02
Bonsoir,
jusqu'ici je réussissais à convertir de l'html en pdf avec htmldoc
là je cherche à convertir des fichiers pdf en html avec pdftohtml

mais je rencontre quelques soucis que je ne sais pas interprêter :
la commande pdftohtml fichier pdf fichier html marche mais me renvoie 3 fichiers html éparpillés
-fichier.html
-fichier ind.html
-fichiers.html

mais quand je choisis des options :
pdftohtml -f -l fichier.pdf fichier.html
ou encore
pdftohtml -f1 -l2 fichier.pdf fichier.html

à chaque fois j'obtiens le truc habituel
Usage: pdftohtml [options] <PDF-file> [<html-file> <xml-file>] et les options à choisir

j'ai essayé plusieurs options, mais aucun résultat.
Quest-ce qui ne va pas, pouvez vous m'aider?
merci
A voir également:

9 réponses

lami20j Messages postés 21331 Date d'inscription jeudi 4 novembre 2004 Statut Modérateur, Contributeur sécurité Dernière intervention 30 octobre 2019 3 567
9 sept. 2009 à 22:17
Re,

D'après ce que j'ai vu

-fichier.html contient des FRAMEs
-fichier ind.html contient le sommaire (les pages)
-fichiers.html contient le contenu des pages
1
lami20j Messages postés 21331 Date d'inscription jeudi 4 novembre 2004 Statut Modérateur, Contributeur sécurité Dernière intervention 30 octobre 2019 3 567
9 sept. 2009 à 22:06
Salut,

Il y a un espace après -f

Donc -f 1 et pas f1

0
lami20j Messages postés 21331 Date d'inscription jeudi 4 novembre 2004 Statut Modérateur, Contributeur sécurité Dernière intervention 30 octobre 2019 3 567
9 sept. 2009 à 22:08
Re,

Dans man pdftohtml
       -f <int>
              first page to print

       -l <int>
              last page to print
Donc
au lieu de -f1 -l2 mets
-f 1 -l 2
0
Utilisateur anonyme
9 sept. 2009 à 22:58
merci Lami20j pour ta réponse.
Effectivement j'ai oublié l'espace mais je me retrouve toujours avec 3 fichiers html
Ca ne devrait pas?
0
lami20j Messages postés 21331 Date d'inscription jeudi 4 novembre 2004 Statut Modérateur, Contributeur sécurité Dernière intervention 30 octobre 2019 3 567
9 sept. 2009 à 23:05
0

Vous n’avez pas trouvé la réponse que vous recherchez ?

Posez votre question
Utilisateur anonyme
10 sept. 2009 à 14:11
Bonjour,
bien entendu, mais existe t-il un moyen plus simple de réunir au moins le sommaire et contenu avec la commande pdftohtml et cela en un seul fichier?
j'ai été obligée en attendant de faire un copier coller du contenu du pdf pour le coller dans opennoffice en un fichier txt...
merci!
0
jipicy Messages postés 40842 Date d'inscription jeudi 28 août 2003 Statut Modérateur Dernière intervention 10 août 2020 4 894
10 sept. 2009 à 14:52
As-tu essayé de réunir les trois fichiers avec "cat" après leur conversion :
pdftohtml fichier.pdf sortie.html && cat *.html > sortie_finale.html
0
lami20j Messages postés 21331 Date d'inscription jeudi 4 novembre 2004 Statut Modérateur, Contributeur sécurité Dernière intervention 30 octobre 2019 3 567 > jipicy Messages postés 40842 Date d'inscription jeudi 28 août 2003 Statut Modérateur Dernière intervention 10 août 2020
10 sept. 2009 à 15:02
Salut,

Un fichier contient des frames, je ne penche pas trop sur la concatenation.
En revanche il peut avoir (c'est maintenant que je pense) une solution sed/awk/perl pour obtenir un seul fichier.
Il faut que tu fasses un test pour voir.
Je n'ai pas des moyens pour tester ;-)
0
lami20j Messages postés 21331 Date d'inscription jeudi 4 novembre 2004 Statut Modérateur, Contributeur sécurité Dernière intervention 30 octobre 2019 3 567
10 sept. 2009 à 14:23
Salut,

Il y a des moyens pour faire la conversion en ligne.
En ce qui concerne la commande pdftohtml, je ne sais pas.
0
lami20j Messages postés 21331 Date d'inscription jeudi 4 novembre 2004 Statut Modérateur, Contributeur sécurité Dernière intervention 30 octobre 2019 3 567
10 sept. 2009 à 18:24
Re,

Tu peux obtenir un seul fichier html comme ça par exemple
 pdftohtml -f 1 -l 2 -stdout fichier.pdf > test.html      
0
lami20j Messages postés 21331 Date d'inscription jeudi 4 novembre 2004 Statut Modérateur, Contributeur sécurité Dernière intervention 30 octobre 2019 3 567
10 sept. 2009 à 18:38
Re,

Je doit être aveugle ;-)
man pdftohtml
       -noframes
              generate no frames. Not supported in complex output mode.


Maintenant on obtiens un seul fichier
pdftohtml -f 1 -l 2 -noframes fichier.pdf  fichier.html

0
Utilisateur anonyme
10 sept. 2009 à 21:02
Bonsoir,
c'est moi qui suis aveugle! merci de votre aide
je n'avais franchement pas capté : génère pas de cadres. Non prise en charge en mode de sortie complexes. Ca ne m'a pas parlé plus que ça ;)

Par contre, volontairement je n'ai pas mis l'option -i - ignore images et les images ont quand même été ignorées.
Mais c'est un résolu, un grand merci!
0