Rechercher : dans
Par :

Récupérer les pdf d'une page web.

Dernière réponse le 25 sep 2009 à 14:20:11 crack40, le 30 mar 2009 à 18:22:45 
 Signaler ce message aux modérateurs

Bonjour a tous,
Voila je désir téléchargé tout les pdf d'une page web (tout est légal), je souhaiterais trouvé un programme ou plugin afin de faire ça en un bloc au lieux de les récupérer un a un.
Merci,
Cordialement.


Attend de traverser la rivière avant de dire que le crocodil­e a une sale gueule.

Configuration: Linux
Firefox 3.0.8

Meilleures réponses pour « Récupérer les pdf d'une page web. » dans :
Enregistrer une page web VoirProblème Je n'arrive pas à télécharger une page web. Y a-t-il un paramétrage à faire ? Solution Quand la page web est affichée dans votre navigateur, faites "Fichier" et choisissez "Enregistrer sous...". Merci à sebsauvage sur le forum pour...
[Webmaster] Publier facilement une vidéo dans une page web VoirPublier une vidéo dans une page web n'est pas toujours évident: Selon le format (AVI, MPG, MOV...) tout le monde ne possède pas forcément le bon plugin et le bon codec. En revanche, la quasi-totalité des navigateurs possèdent le plugin Flash (SWF)....
[Webmaster] Les polices dans les pages web VoirLes limites du web Quand vous utilisez une police dans une page web, elle ne s'affichera que si l'internaute a la même police installée sur son ordinateur. Vous n'avez aucun moyen de forcer l'internaute à télécharger et installer une police,...

1

jipicy, le 30 mar 2009 à 18:31:36

Salut,

wget -A.pdf URL
$ man woman
Il n'y a pas de page de manuel pour woman.

Répondre à jipicy

2

crack40, le 30 mar 2009 à 18:52:29

Merci de m'avoir répondu si vite,
Alors j'ai récupérer un fichier htlm, mais je ne trouve pas les pdf. Attend de traverser la rivière avant de dire que le crocodil­e a une sale gueule.

Répondre à crack40

3

jipicy, le 30 mar 2009 à 20:13:42

Effectivement ;-((

Pourtant la page de man et tous les exemples sur le web donnent cette syntaxe (ou -A "*.pdf") mais même comme ça, ça marche pô ;-(((

Désolé.
$ man woman
Il n'y a pas de page de manuel pour woman.

Répondre à jipicy

4

crack40, le 30 mar 2009 à 20:13:44

En fait je peut téléchargé les pds que par un par un. Attend de traverser la rivière avant de dire que le crocodil­e a une sale gueule.

Répondre à crack40

5

jipicy, le 30 mar 2009 à 20:16:13

Oui mais ce n'est pas le but, et c'est ce qu'est sensée faire l'option "-A.pdf", à savoir tous les pdf et non pas un !

Je ne comprends pas ;-((

Espérons que quelqu'un saura nous en dire plus...
$ man woman
Il n'y a pas de page de manuel pour woman.

Répondre à jipicy

6

crack40, le 30 mar 2009 à 20:20:44

En fait je un programme ou plugin comme "DownloadHelper", qui permet entre autre de récupérer plusieurs fichier multimédia, mais pour les pdf. Attend de traverser la rivière avant de dire que le crocodile a une sale gueule.

Répondre à crack40

7

crack40, le 31 mar 2009 à 15:45:54

UP! Attend de traverser la rivière avant de dire que le crocodil­e a une sale gueule.

Répondre à crack40

8

crack40, le 31 mar 2009 à 16:04:57

Salut,
Je reviens vers vous dire que trouvé comment faire, j'utilise "webhttrack" pour ubuntu:
Instalation et untilisation: http://doc.ubuntu-fr.org/httrack Attend de traverser la rivière avant de dire que le crocodile a une sale gueule.

Répondre à crack40

9

jipicy, le 31 mar 2009 à 16:45:50

Merci ;-))

Mais bon j'aurai bien aimé une explication sur le pourquoi du comment du non-fonctionnement de l'option -A de wget ;-(((
$ man woman
Il n'y a pas de page de manuel pour woman.

Répondre à jipicy

10

crack40, le 31 mar 2009 à 16:50:22

Ben en fait, il ne m'enregistre que la page web sans le dossier des pièces de cette page. Sur cette page il y a des liens pdf, quand clip dessus il me le fais télécharger.
J'espère que tu me comprend. Attend de traverser la rivière avant de dire que le crocodil­e a une sale gueule.

Répondre à crack40

11

 Laurent, le 25 sep 2009 à 14:20:11

Salut,

Si je me contente de "wget http://www.mapage.com/avecdespdf.html -A pdf" je demande uniquement de charger le fichier "avecdespdf.html". Même si je passe l'option accept, qui dans ce cas ne sert qu'a faire joli. Il ne faut pas oublier que wget comme tout les crawler, bot et autre navigateurs ne fait que charger des fichiers un par un.

Dans ce cas je n'ai pas spécifié de suivre de liens, donc wget ne les suivra pas, ce qui est logique. C'est pareil pour un navigateur : c'est pas parce que je demande une page que ça sous entend que je vais suivre tous les liens automatiquement, vous imaginez le bordel que ça serait et ça s'arrêterait quand ?

Il faut spécifier que l'on veut suivre les liens avec l'option de récursivité qui est implicitement paramétré pour une profondeur de 5. Si je ne veux que les fichiers en lien sur la page spécifié je doit indiquer une profondeur de 1. Si j'en reste la, je récupère tout les fichiers. Si je ne veux que les pdf, les jpg, les deux ou encore les fichiers ayant un certain nom, je filtre avec l'option accept (Specify comma-separated lists of file name suffixes or patterns to accept or reject. Note that if any of the wildcard characters, *, ?, [ or ], appear in an element of acclist or rejlist, it will be treated as a pattern, rather than a suffix.).

Donc la commande devient :

wget http://www.mapage.com/avecdespdf.html -r -l 1 -A pdf


Voilou.

Répondre à Laurent
Collection CommentÇaMarche.net