Telecharger un grand nombre de fichier html

Fermé
marcodab - 2 juil. 2009 à 15:40
 marcodab - 3 juil. 2009 à 10:36
Bonjour,

Un site internet contenant plus de 10 000 pages html, m'intéresse vivement, et je désire m'en faire une base de données locale.
Je connais les 10 000 adresses et je les ai mises dans un fichier texte unique, du style:
www.machintruc00001.html
www.machintruc00002.html
www.machintruc00003.html
etc

Comment faire pour télécharger de façon automatique les 10 000 pages? (à la main, ça pourrait mettre 83 heures de travail selon mes calculs!)

...par exemple, les aspirateurs de site peuvent ils prendre en compte 10 000 URL?
(sachant qu'il n'y a pas de lien hypertexte qui relient les 10 000 pages, donc l'aspirateur de site ne peut pas trouver seul toutes les pages... il faut lui fournir les 10 000 adresses)

Merci bien
A voir également:

4 réponses

eric1708 Messages postés 100 Date d'inscription vendredi 4 janvier 2008 Statut Membre Dernière intervention 21 juin 2022 128
2 juil. 2009 à 15:43
Pourquoi ne pas simplement écrire un fichier batch (un script) avec une boucle et un ftp?

Ca vaut le coup d'essayer. Ca doit prendre 4-5 lignes de code, guère plus..
0
kalenwed Messages postés 1840 Date d'inscription mardi 10 mars 2009 Statut Contributeur Dernière intervention 13 août 2018 166
2 juil. 2009 à 15:43
de quoi de quoi ?
0
ok eric, merci pour cette bonne idée,

peux tu me rappeler les bases du ftp dans un terminal?
je n'ai pas besoin d'un code pour accéder au site??

par exemple pour copier http://truc0017.html sous F:\mondossier je dois juste écrire

ftp http://truc0017.html F:\mondossier

et je fais une boucle là dessus?
0
Mon problème n'est pas résolu:

Je n'ai pas trouvé de batch qui me permette de telecharger le source d'une adresse intenet dans un fichier local...

une commande dans le genre "copie www.google.fr > index.txt"

et que ça me donne dans index.txt
<!doctype html><html><head><meta http-equiv="content-type" ...........; etc...

Si un bon samaritain passe pas là....
danke
0