Rechercher : dans
Par :

Telecharger un grand nombre de fichier html

Dernière réponse le 3 jui 2009 à 10:36:04 marcodab, le 2 jui 2009 à 15:40:20 
 Signaler ce message aux modérateurs

Bonjour,

Un site internet contenant plus de 10 000 pages html, m'intéresse vivement, et je désire m'en faire une base de données locale.
Je connais les 10 000 adresses et je les ai mises dans un fichier texte unique, du style:
www.machintruc00001.html
www.machintruc00002.html
www.machintruc00003.html
etc

Comment faire pour télécharger de façon automatique les 10 000 pages? (à la main, ça pourrait mettre 83 heures de travail selon mes calculs!)

...par exemple, les aspirateurs de site peuvent ils prendre en compte 10 000 URL?
(sachant qu'il n'y a pas de lien hypertexte qui relient les 10 000 pages, donc l'aspirateur de site ne peut pas trouver seul toutes les pages... il faut lui fournir les 10 000 adresses)

Merci bien

Configuration: Windows 2000 Internet Explorer 6.0

Meilleures réponses pour « telecharger un grand nombre de fichier html » dans :
Renommer plusieurs fichiers en batch VoirLe fait de renommer un grand nombre de fichiers peut très vite devenir fastidieux. Heureusement, il existe des outils permettant d'automatiser cette tâche dans un grand nombre de cas : Fonctionnalités natives Utilisation d'un programme...
Télécharger le contenu d'une page WEB distante VoirIntroduction Installation sous Linux (Ubuntu / Debian) Installation sous Windows Dev C++ Microsoft Visual C++ Petite exploration des fonctions de libcurl Un exemple: télécharger la page d'accueil de CCM Notre fichier source Compilation...
Télécharger PHP Edit VoirPHPEdit est un environnement de développement intégré (IDE) sous Windows pour le langage PHP. Il offre un grand nombre de fonctionnalités permettant de développer plus efficacement : Coloration syntaxique Auto-complétion des fonctions Débuggeur...
Télécharger KaraFun VoirKaraFun est un logiciel de karaoké gratuit et complet sur PC. A la fois lecteur et éditeur de karaokés, il utilise un moteur d'animation 3D unique. KaraFun gère aussi bien l'Audio que le MIDI et lit parfaitement un grand nombre de fichiers : KFN,...
Introduction au HTML VoirPrésentation du HTML Le HTML (« HyperText Mark-Up Language ») est un langage dit de « marquage » (de « structuration » ou de « balisage ») dont le rôle est de formaliser l'écriture d'un document avec des balises de formatage. Les balises permettent...
PHP - Les fichiers VoirLa gestion des fichiers avec PHP Avec PHP, la création ou la lecture de fichiers est, une fois de plus, assez simple. Il existe une multitude de fonctions dédiées à l'utilisation des fichiers. La communication entre le script PHP et le fichier...
Structure d'un document HTML VoirNotion de document HTML Une page HTML est un simple fichier contenant du texte formatté avec des balises HTML. Par convention l'extension donnée au fichier est .htm ou .html, mais une page web peut potentiellement porter n'importe quelle...

1

eric1708, le 2 jui 2009 à 15:43:17

Pourquoi ne pas simplement écrire un fichier batch (un script) avec une boucle et un ftp?

Ca vaut le coup d'essayer. Ca doit prendre 4-5 lignes de code, guère plus..

Répondre à eric1708

2

kalenwed, le 2 jui 2009 à 15:43:30

De quoi de quoi ?

Répondre à kalenwed

3

marcodab, le 2 jui 2009 à 15:50:53

Ok eric, merci pour cette bonne idée,

peux tu me rappeler les bases du ftp dans un terminal?
je n'ai pas besoin d'un code pour accéder au site??

par exemple pour copier http://truc0017.html sous F:\mondossier je dois juste écrire

ftp http://truc0017.html F:\mondossier

et je fais une boucle là dessus?

Répondre à marcodab

4

 marcodab, le 3 jui 2009 à 10:36:04

Mon problème n'est pas résolu:

Je n'ai pas trouvé de batch qui me permette de telecharger le source d'une adresse intenet dans un fichier local...

une commande dans le genre "copie www.google.fr > index.txt"

et que ça me donne dans index.txt
<!doctype html><html><head><meta http-equiv="content-type" ...........; etc...

Si un bon samaritain passe pas là....
danke

Répondre à marcodab
Collection CommentÇaMarche.net