Salut,
Si je me contente de "wget http://www.mapage.com/avecdespdf.html -A pdf" je demande uniquement de charger le fichier "avecdespdf.html". Même si je passe l'option accept, qui dans ce cas ne sert qu'a faire joli. Il ne faut pas oublier que wget comme tout les crawler, bot et autre navigateurs ne fait que charger des fichiers un par un.
Dans ce cas je n'ai pas spécifié de suivre de liens, donc wget ne les suivra pas, ce qui est logique. C'est pareil pour un navigateur : c'est pas parce que je demande une page que ça sous entend que je vais suivre tous les liens automatiquement, vous imaginez le bordel que ça serait et ça s'arrêterait quand ?
Il faut spécifier que l'on veut suivre les liens avec l'option de récursivité qui est implicitement paramétré pour une profondeur de 5. Si je ne veux que les fichiers en lien sur la page spécifié je doit indiquer une profondeur de 1. Si j'en reste la, je récupère tout les fichiers. Si je ne veux que les pdf, les jpg, les deux ou encore les fichiers ayant un certain nom, je filtre avec l'option accept (Specify comma-separated lists of file name suffixes or patterns to accept or reject. Note that if any of the wildcard characters, *, ?, [ or ], appear in an element of acclist or rejlist, it will be treated as a pattern, rather than a suffix.).
Donc la commande devient :
wget http://www.mapage.com/avecdespdf.html -r -l 1 -A pdf
Voilou.