Reccuperer le contenu d'un répertoire web

Fermé
adrien69003 - 2 nov. 2013 à 10:26
ryko1820 Messages postés 1645 Date d'inscription dimanche 28 avril 2013 Statut Membre Dernière intervention 15 août 2021 - 2 nov. 2013 à 18:15
bonjour à tous et toutes,

je m'en remets à ce super forum, ou j'éspère pouvoir trouver de l'aide.
Je vous explique... Je suis web marchant et j'ai un site internet de vente en ligne de produit animalier (aquariums, matos ...etc)
J'ai un rayon pompes de brassages, (pour eau de mer) et après avoir reçus l'autorisation de reccuperer les visuels de produit d"une marque, je voudrais savoir comment aspirer tout le contenue d'un repertoire ou j'ai tout mes visuels

voici un lien direct vers une image,
http://www.tunze.com/fileadmin/images/product_database/6095.000.jpg

voici les pages liées aux produits,
http://www.tunze.com/149.html?&L=2&C=FR&user_tunzeprod_pi1%5Bpredid%5D=-infoxunter063

le but pour moi serait de reccuperer toutes ces images, de les zippé, et de uppé sur mon serveur d'image perso.

j'éspère que j'ai été assez clair dans ce que je demande comme aide.

merci à tous, et bon samedi
A voir également:

4 réponses

Aranud87 Messages postés 18031 Date d'inscription dimanche 29 octobre 2006 Statut Contributeur Dernière intervention 7 juin 2020 3 293
2 nov. 2013 à 10:31
Salut,

le truc c'est que c'est bloqué : http://www.tunze.com/fileadmin/images/product_database/
Tu ne pourras pas faire grand chose...

le plus simple serait d'avoir un accès FTP pour récupérer en 1 sec le répertoire, il faut voir ça avec eux...


0
Et donc pas moyen ( d'aspirer ? ) ...
0
Aranud87 Messages postés 18031 Date d'inscription dimanche 29 octobre 2006 Statut Contributeur Dernière intervention 7 juin 2020 3 293
2 nov. 2013 à 11:12
Non de plus je pense et suppose qu'elle non pas un ordre logique genre :

photo1, photo2,photo3...
donc même avec un logiciel, c'est pas possible
0
ryko1820 Messages postés 1645 Date d'inscription dimanche 28 avril 2013 Statut Membre Dernière intervention 15 août 2021 276
Modifié par ryko1820 le 2/11/2013 à 11:37
Hello,

Apparemment chaque photo correspond à sa référence, alors si tu as la liste des références (par exemple dans un fichier excel) pour lesquelles les photos t'intéressent il doit être possible de faire un script ...

Référence "6095.000" : image http://www.tunze.com/fileadmin/images/product_database/6095.000.jpg

et cela semble comme cela pour tout le site ...
Après il est possible qu'il y ait plusieurs photos différentes pour une même référence, je n'ai pas creusé jusque là ...

Par contre pour les schémas descriptifs (comme http://www.tunze.com/fileadmin/images/product_database/-info05.3.jpg ) , ils ne respectent pas cette logique.


EDIT : apparemment il y a un catalogue qui contient toutes les refs. Alors y'a plus qu'a faire un copier coller du lien "http://www.tunze.com/fileadmin/images/product_database/" + ref + ".jpg" pour avoir la liste plus ou moins complète des photos, libre ensuite de passer ça à un logiciel comme httrack ou plus simplement curl ...


You may stop me but you can't stop us all ;-)
0
ryko1820 Messages postés 1645 Date d'inscription dimanche 28 avril 2013 Statut Membre Dernière intervention 15 août 2021 276
Modifié par ryko1820 le 2/11/2013 à 12:15
Yo,

J'ai fait un petit script curl basé sur http://www.tunze.com/fileadmin/images/product_additional/0091.000_F%2301.pdf (en passant par excel ça va vite) ...

Récupérer curl sur https://curl.haxx.se/download.html (win32 generic ou win64 generic suivant ton système) ...

Décompresser ses fichiers dans un répertoire.

Aller sur https://www.cjoint.com/c/CKcl1e6HMd6 et copier l'intégralité des lignes de la page (depuis le @echo off jusqu'à la dernière ligne curl) dans un nouveau fichier texte dans le même répertoire que curl.exe en, par exemple, recup_photo.txt (avec bloc-note ou autre).

Changer l'extension de ce fichier texte de .txt en .bat puis double-cliquer dessus.

Tu devrais récupérer environ 900 photos. (certains liens vont planter sûr car dans la références il y a un slash) ...
La référence du produit correspondra au nom de la photo ...

EDIT : Si tu es sur linux (chez toi ou sur ton serveur de photo), il y a des chances que curl soit déjà installé sur ton système, sinon remplacer l'occurence de "curl -O" par "wget" et lancer avec sh ... Ca éviterait de passer par chez toi, et ne prendra que quelques secondes pour récupérer les 900 photos ...

PS: le script ne sera sur cjoint que 24 jours ...

You may stop me but you can't stop us all ;-)
0
des fois j'ai la haine d'être sous osX...
Et ca fonctionne pas. . . Mais ton truc avait pourtant l'air d etre bien. . . . C'est vraiement la loose pour moi là .
0
ryko1820 Messages postés 1645 Date d'inscription dimanche 28 avril 2013 Statut Membre Dernière intervention 15 août 2021 276
Modifié par ryko1820 le 2/11/2013 à 18:28
Çà marche aussi avec mac OS X ...

curl et même httrack sont proposés pour cet OS

1/ Avec curl (https://curl.haxx.se/download.html : Télécharger la version binary OS X i386 ou PPC suivant le type de processeur installé.

Par contre il faudra lancer le script (dans le même répertoire que celui ou sera installé curl) en le renommant, par exemple, "recup_photo.sh" par la commande "sh recup_photo.sh" et peut être faire auparavant un "chmod 777 recup_photo.sh".

2/ Avec httrack (en mode fenêtré : donc pas de console et peut être plus simple) ( http://www.httrack.com/page/2/fr/index.html ) récupérer la liste des url et retirer (avec rechercher / remplacer) tous les "curl -O" de chaque début de ligne dans la liste (ainsi que le @echo off du tout début) puis coller la liste dans la fenêtre d'httrack (au bon endroit).

Avec une connexion ADSL normale en moins de 10 mn les 900 photos sont téléchargées avec curl ou httrack ...
0