Scraper certaines données d'un site ?
Fermé
Yoloswagger
Messages postés
3
Date d'inscription
mardi 20 février 2018
Statut
Membre
Dernière intervention
23 février 2018
-
Modifié le 20 févr. 2018 à 13:33
Utilisateur anonyme - 23 févr. 2018 à 14:14
Utilisateur anonyme - 23 févr. 2018 à 14:14
A voir également:
- Scraper certaines données d'un site ?
- Site de telechargement - Guide
- Site inaccessible - Guide
- Site de vente entre particulier - Guide
- Darkino site - Guide
- Site partage photo - Guide
1 réponse
Utilisateur anonyme
21 févr. 2018 à 19:27
21 févr. 2018 à 19:27
Dans un premier temps, il faut vérifier que le site ne dispose d'un flux RSS ou d'une API pour récupérer des données. Ici, ce n'est pas le cas (c'est la manière la plus propre de le faire).
Les informations que tu recherches se trouvent dans le code source de la page (pas AJAX). Tu peux donc utiliser tout simplement la bibliothèque urllib.request pour demander à une URL de te renvoyer son code source. Ensuite, à toi d'utiliser la bibliothèque "re" pour appliquer des recherches par expression régulière sur ce texte et enfin récupérer les informations dont tu as besoin (tu peux utiliser autre chose que "re").
Tu ne vas pas directement récupérer toutes les infos que tu veux.
Etape 1 : récupérer l'ensemble des liens du site : http://fondationscp.wikidot.com/liste-francaise (si possible ceux qui correspondent à la liste).
Etape 2 : pour chaque URL, chercher la valeur dans le code source de Classe et Objet.
Etape 3 : stocker ces informations dans une structure pour ensuite les utiliser ailleurs.
Les informations que tu recherches se trouvent dans le code source de la page (pas AJAX). Tu peux donc utiliser tout simplement la bibliothèque urllib.request pour demander à une URL de te renvoyer son code source. Ensuite, à toi d'utiliser la bibliothèque "re" pour appliquer des recherches par expression régulière sur ce texte et enfin récupérer les informations dont tu as besoin (tu peux utiliser autre chose que "re").
Tu ne vas pas directement récupérer toutes les infos que tu veux.
Etape 1 : récupérer l'ensemble des liens du site : http://fondationscp.wikidot.com/liste-francaise (si possible ceux qui correspondent à la liste).
Etape 2 : pour chaque URL, chercher la valeur dans le code source de Classe et Objet.
Etape 3 : stocker ces informations dans une structure pour ensuite les utiliser ailleurs.
Modifié le 23 févr. 2018 à 13:06
j'aimerais pouvoir récupérer les information sur les différente page que compose ces page la :
ce qui fait au total 4530 pages différentes...
par manque de temps je ne peut pas vraiment récupérer pour chaque URL la valeur dans le code source.
Toutes les page ont la même structure (a quelque exception pour le RP du site...)
23 févr. 2018 à 12:57
Modifié le 23 févr. 2018 à 13:14
http://fondationscp.wikidot.com/scp-001
a (entre les deux il y a 3999 url)
http://fondationscp.wikidot.com/taboo
puis passer a une autre page ?
23 févr. 2018 à 14:14