SCRIPT chrome download automatique [Fermé]

Signaler
Messages postés
900
Date d'inscription
mercredi 8 avril 2009
Statut
Membre
Dernière intervention
7 août 2018
-
TOT127
Messages postés
900
Date d'inscription
mercredi 8 avril 2009
Statut
Membre
Dernière intervention
7 août 2018
-
Coucou,
je dois télvaécharger 2000 PDF dans un site d'une institution. tout gratuit. Mias bon, le temps... Et ils ont que 40 PDF sur chaque page.
C'est toujours la même méthode:
-> passe page
- clique lien 'document x"
> nouvelle page
> descends
> clique sur le nom de fichier en bas
> retourne (ou ferme l'onglet plutôt)
recommence avec le lien "document x+1"


Je pense me le coltiner à la main, mais à tout hasard, on peut faire ça de façon automatisée en écrivant un script ? Je vous mets en document cijoint le lien de la bibliothèque (je le fais pas ici pour raisons de privacy de l'institution): http://www.cjoint.com/c/GBiwEEFqryY

merci :)

1 réponse

Messages postés
542
Date d'inscription
mercredi 9 mars 2016
Statut
Membre
Dernière intervention
8 mars 2018
74
Oui ça peut se faire

Déja c'est un peu barbare, mais dans l'url tu as un paramètre "rpp=" c'est le nombre de résultats à afficher par page, si tu le mets à 2072 tu pourra avoir tous les liens qui mènent au téléchargement en une seule fois :

var str = document.body.innerHTML ;
var d = str.match(/\/bib\/jspui\/handle\/[0-9]{4}\/[0-9]{4}/g);


Une fois que tu as tous ces liens il suffit de télécharger le contenu de la page, récupérer le lien http://blabla/truc/chose.pdf et le télécharger.

Ça peut se faire assez rapidement en python (libsoup, urllib) ou en bash (curl, grep, wget)
1
Merci

Quelques mots de remerciements seront grandement appréciés. Ajouter un commentaire

CCM 79875 internautes nous ont dit merci ce mois-ci

TOT127
Messages postés
900
Date d'inscription
mercredi 8 avril 2009
Statut
Membre
Dernière intervention
7 août 2018
56
J'ai pas vu le rpp dans l'URL, mais sur le "barbare" oui je crois qu'on est d'accord.
Leur site marchait pas, il y a 3 mois je leur ai dit, ils m'ont dit non non ça marche, et là maintenant, ils m'ont écrit pour me dire que j'avais raison et que leur site s'affichait pas dans les navigateurs en français et qu'ils allaient y travailler. C'est fou haha
Rocailleux
Messages postés
542
Date d'inscription
mercredi 9 mars 2016
Statut
Membre
Dernière intervention
8 mars 2018
74
Tu dois aller en page 2 pour voir le rpp apparaitre.

Sinon, une fois que les liens sont récupérés (voir code javascript ci dessus), sous mac tu peux faire un code bash qui va parcourir chaque lien (voir la structure for truc in trucutruc do done https://www.cyberciti.biz/faq/bash-for-loop/ ) télécharger le contenu (https://doc.ubuntu-fr.org/wget) repérer les liens .pdf (https://www.digitalocean.com/community/tutorials/using-grep-regular-expressions-to-search-for-text-patterns-in-linux ) et les télécharger ( wget à nouveau)
TOT127
Messages postés
900
Date d'inscription
mercredi 8 avril 2009
Statut
Membre
Dernière intervention
7 août 2018
56
salut ! j'ai aucune compétence mais je vais essayer, en plus ça m'intéresse.
Pour le rpp, j'ai réussi.
Je sais pas faire un code bash encore. Tes liens parlent surtout de ubuntu et linux

donc je fais toutes les étapes que tu as mentionnées ??
bash + télécharger + repérer les liens pdf + wget ?
Rocailleux
Messages postés
542
Date d'inscription
mercredi 9 mars 2016
Statut
Membre
Dernière intervention
8 mars 2018
74
Mac et Ubuntu ( Linux en général) sont dérivés d'unix, et ont donc une base commune (dont les commandes de bases, wget, grep et tout ce qu'il te faut )

Pour faire des scritps, il y'a beaucoup de doc sur internet, entraine toi un peu pour comprendre comment ça marche avant de te lancer dans le téléchargement
TOT127
Messages postés
900
Date d'inscription
mercredi 8 avril 2009
Statut
Membre
Dernière intervention
7 août 2018
56
c'est entendu, merci!