Récuperer des infos depuis des sites webFermé

Question

Bonjour,

Je souhaite automatiser un système de récupération de données:

Je voudrais récupérer des données, des parties de pages web, provenant de plusieurs sites web.
J'ai vu des post semblables mais en ce qui me concerne c'est un peu plus délicat et totalement different.

Les données se trouvent sur des pages avec des liens du type " http://www.undomaine.dh/notes/995217.php"
Le nom de la page php " 995217.php " varie à chaque fois et il n'est pas prévisible.

Voyez vous une solutions?

Merci à vous.

sebsauvage · Answer

En programmant ça soi-même.

(récupérer la page html, examiner le code html pour extraire les liens, aller chercher les liens suivants, etc.)

Quelques exemples:
https://sebsauvage.net/python/snyppets/index.html#getlinks1
https://sebsauvage.net/python/snyppets/index.html#google_search

CCM · Answer

Merci seb, mais les exemples que tu me donne servent à récupérer tout les liens d'une page html et pas les données?
Moi il faudrait donc récupérer les données de certaines pages.
J'ai entendu parler sur CCM des "expression régulières" mais il faut connaitre à l'avance l'url du site et il ne faut pas la modifier pour extraire les données, n'est ce pas?

sebsauvage · Answer

Merci seb, mais les exemples que tu me donne servent à récupérer tout les liens d'une page html et pas les données?

Les données sont souvent présentées sous forme de page HTML, non ?
Il suffit donc de les extraire de la page HTML.

Par exemple avec les expressions régulières, oui.
D'ailleurs il y en a un exemple dans le premier lien que j'ai donné.


mais il faut connaitre à l'avance l'url du site

Si tu ne sais pas quel site tu veux récupérer, je ne peux pas t'aider.


il ne faut pas la modifier pour extraire les données, n'est ce pas?

Modifier quoi ?
A partir du moment où tu as récupéré une page HTML, il te suffit d'examiner le code HTML pour:
- récupérer les données qui t'intéressent dedans
- extraire les liens vers d'autres pages.

CCM · Answer

Je me suis  peut être mal exprimer ...

Je vais essayer de t'expliquer avec un cas concret, prenons pour exemple un site de petites annonces :

Je connais l'url du site www.jannonceDESannonces.an qui publie chaque jours plusieurs annonces :

www.jannonceDESannonces.an/voiturebleu45.html
www.quoiqu'annonceuses.an/velorouge27mai.html
www.jannonceDESannonces.an/consoleTOP.html
www.jannonceDESannonces.an/belles_maison/superbe_baraque34.html

Et je voudrais donc par exemple extraire, les titres, les descriptions et les coordonnées de chaque annonces, pour les stocké et les publiées après un tri...
Sachant que les url du type  " www.jannonceDESannonces.an/consoleTOP.html " ne sont pas connus à l'avance. Il sont créés au fur et a mesure.

(dans mon cas réel, bien entendu il ne s'agit pas de données personnelles)

Comment je doit procéder?

CCM · Answer

J'essaye de jeter un coups d'œil sur ton code, c'est quoi comme langage c'est du python ça??? (sa ressemble un peu au C ++ )
Comment tu l'implémente? tu le places dans ta page html ? avec ou sans balises spécifiques?

sebsauvage · Answer

Sachant que les url du type " www.jannonceDESannonces.an/consoleTOP.html " ne sont pas connus à l'avance. Il sont créés au fur et a mesure. 

La structure de chaque site étant différente, il faudra développer un programme pour chaque site.

CCM · Answer

Ok pas de problème, c'est comme des d'agents qui vont chercher des données...?

Comment implémenter ton code pour faire des premiers testes? (ou le placer ? dans une page html?)
J'ai aussi vu une fonction mais, uniquement sous win,-->  URLDownloadToFile, sa peut pas m'aider?

sebsauvage · Answer

c'est comme des d'agents qui vont chercher des données...? 

oui.



Comment implémenter ton code pour faire des premiers testes? (ou le placer ? dans une page html?) 

Dans un fichier texté nommé en .py que tu lancera avec Python (une fois installé).


URLDownloadToFile

Je ne sais pas de quel langage/librairie il s'agit, mais a priori urllib2 de Python fait la même chose.

CCM · Answer

Ok..
Donc, j'installe python (je ne sais pas encore ce que c'est, je pensai que c'était juste un langage)
Je crée un fichier python pour un site donnée et je refait sur la même base, les autres...
Comment ils seront exécuté, ou seront enregistré mes données? 
Aurait-tu stp, une amorce sur laquelle je pourrais m'inspirer, je ne suis pas du tout développeur et le python je viens de (ou plutôt je vais)  découvrir !!

MErci

sebsauvage · Answer

je pensai que c'était juste un langage

C'est un langage de programmation.


Je crée un fichier python pour un site donnée et je refait sur la même base, les autres... 

Tout à fait !


Comment ils seront exécuté

python monprogramme.py


ou seront enregistré mes données? 

ça dépend où tu programmera l'enregistrement des données (fichier texte, cvs, base de données...)


je ne suis pas du tout développeur

Tu peux regarder là:
http://www.commentcamarche.net/faq/sujet 457 comment debuter quel langage#python

Il y a tout ce qu'il faut pour apprendre Python.

C'est une bonne occasion pour apprendre à programmer !

CMM · Answer

En faisant un petit algorithme ou plutôt un petit schéma je me rends compte que sa va être trop lourd a gérer. J'aurais : 1- un code pour récupérer les liens 2- un code pour garder les liens qui me sont intéressants 3- un code pour extraire le contenu Ma recherche est schématisé de la manière suivante : 1er Portail avec plusieurs liens lien 1 plein d'infos lien 2 plein d'infos lien ... plein d'infos lien 40 plein d'infos 2em Portail avec plusieurs liens lien 1 plein d'infos lien 2 plein d'infos lien ... plein d'infos lien 40 plein d'infos ... ... 10em Portail avec plusieurs liens lien 1 plein d'infos lien 2 plein d'infos lien ... plein d'infos lien 40 plein d'infos Si j'ai bien compris le truc, en gros je devrais avoir executé: le code 1- pour récupérer les liens ----------------------------------------10 fois le code 2- pour garder les liens qui me sont intéressants-- -40 x 10 fois le code 3- pour extraire le contenu -------------------------------40 x 10 fois code1 [code] import re, urllib htmlSource = urllib.urlopen("http://www.monsiteweb4.mw/site/").read(200000) linksList = re.findall('.*?',htmlSource) for link in linksList: print link /code code3 [code] #!/usr/bin/python # -*- coding: iso-8859-1 -*- import urllib, sys, xml.dom.minidom adresse = 'http://www.monsiteweb4.mw/site/lien37.html' document = xml.dom.minidom.parse(urllib.urlopen(adresse)) for item in document.getElementsByTagName('item'): titre = item.getElementsByTagName('title')[0].firstChild.data identifiant= item.getElementsByTagName('ID')[0].firstChild.data variable1 = item.getElementsByTagName('var1')[0].firstChild.data variable2 = item.getElementsByTagName('var2')[0].firstChild.data .... print "Titre: %s" % titre.encode('latin-1','replace') print "Identifiant: %s" % identifiant.encode('latin-1','replace') .... /code Sa fait beaucoup sachant que sa doit être fait quotidiennement ! Je doit laisser tomber le python? c'est pas lourd a gérer?

sebsauvage · Answer

Sa fait beaucoup sachant que sa doit être fait quotidiennement !

Bien sûr que ça fait beaucoup
Les portails contiennent des milliers de liens.

Vouloir les récupérer quotidiennement, c'est de la folie.

CCM · Answer

Je peut avoir ton avis? (ou celui de quelqu'un d'autre )
Comment tu ferais si tu doit récupérer à partir de plusieurs site, des infos du type texte?

Cette recherche doit s'effectuer quotidiennement sur une dizaine de site.

Les données doivent être extraites, sauvées pour pouvoir ensuite faire un tri.

Quelle architecture (de préférence logiciel libre) me proposerais tu?

sebsauvage · Answer

Comment tu ferais si tu doit récupérer à partir de plusieurs site, des infos du type texte? 

Exactement comme j'ai montré en Python.
D'ailleurs je le fais plusieurs fois par semaine: Je récupère l'intégralité de la base de connaissance de CCM sous forme de fichier zip.
C'est un script Python fait maison qui me fait le boulot de parcourir les différentes pages, récupérer la liste des article de chaque page, puis aller me cherche chaque article, en extraire le texte, aller télécharger les images contenues dans chaque article, et enfin assembler les articles sous forme de fichiers et construire un indexe.
(Inutile de demander, je ne donnerai pas le programme.)


Cette recherche doit s'effectuer quotidiennement sur une dizaine de site.
Les données doivent être extraites, sauvées pour pouvoir ensuite faire un tri. 

La question est: Combien de page de chaque site veux-tu examiner chaque jour ?
Il y a une limite au delà de laquelle ce n'est pas réaliste.
Et ça dépend également du site.

CCM · Answer

(Inutile de demander, je ne donnerai pas le programme.) 

Merci quand même, mais je ne suis pas la pour te demander un programme (d'ailleurs je ne pense pas avoir demandé de prog jusqu'à présent...)
Je veut juste réaliser moi même ma propre application.

Pour les pages des sites: 
Il y a une dizaine de site de ce genre https://helpx.adobe.com/security.html  et je veut récupérer les données des bulletin pour surveiller les vulnérabilités de mon petit parc informatique.
Chaque bulletin represente une page.
Et ceux pour une dizaine de sites.
Environ 10 sites x 15 bulletin pour diminuer un peu

sebsauvage · Answer

je veut récupérer les données des bulletin pour surveiller les vulnérabilités de mon petit parc informatique.

Il y a nettement plus simple: Des sites comme SANS, CERT ou CERTA publient les bulletins de sécurité pour la majorité des vendeurs/éditeurs de logiciels.
En prime, ils ont généralement un flux RSS.
Ou bien c'est sous forme d'abonnement (payant).

Aggréger des flux RSS est nettement plus simple (il y a des logiciels prévus pour ça), et avec un simple filtre sur le nom des appli, tu es prévenu que de ce qui t'intéresse.

https://www.sans.org/
https://www.sei.cmu.edu/about/divisions/cert/index.cfm
https://www.cert.ssi.gouv.fr/

CCM · Answer

Merci, c'est exactement ce que je veut faire, mais je peu donc sauvegarder et stocker les données  contenus dans les bulletins publés en RSS ?

sebsauvage · Answer

Oui tu peux.
Ceci, il me semble que le flux RSS de certains de ces sites est payant. à voir.

CCM · Answer

j'ai trouver pas mal d'explication sur les rss / xml
quelques fonctions php :  https://www.php.net/manual/fr/ref.xml.php
Mais par contre on nous propose d'extraire que le contenu des flux rss , titre, description, date... (les flux ne contiennent pas toutes les informations que je veut extraire). Tu me confirme bien qu'à partir d"un flux RSS on peu en extraire toutes les données de la page dont il fait référence. Et pas seulement les données publiées par ce flux.

As tu quelque liens en tête, vers des tutaux, exemples ou autres infos? j'ai pas trouver grand chose sur l'extraction ..
Merci

sebsauvage · Answer

Tu me confirme bien qu'à partir d"un flux RSS on peu en extraire toutes les données de la page dont il fait référence. Si le flux contient pour chaque un lien vers la page (), il suffit d'aller chercher la page à l'URL indiquée pour avoir toutes les infos. As tu quelque liens en tête, vers des tutaux, exemples ou autres infos? j'ai pas trouver grand chose sur l'extraction .. Exemple pour RSS 2.0 (mais il y a plusieurs format RSS sur internet): https://sebsauvage.net/python/snyppets/index.html#parse_rss

CCM · Answer

Merci, j'avais déjà mis la main sur ton code depuis ce post, j'avais commencer a réfléchir dessus :

http://www.commentcamarche.net/forum/affich 2327323 web service recuperer des donnees web

address = 'http://www.sebsauvage.net/rss/updates.xml'
document = xml.dom.minidom.parse(urllib.urlopen(address))

Il faudra rendre la variable "address" dynamique pour ne pas la rentrer en dur.
Je doit faire en sorte ,que les url varient automatiquement en fonction des pages.
J'ai une vingtaine de flux rss, chaque flux contient 5 articles.

J'ai donc une centaine de liens. Et le lendemain, rebelotte, les url changent a nouveau...

Il faut donc mettre au point un script qui va récupérer les liens de ma page web igoogle (contenant tout les flux RSS)  , supprimer les liens inutile du type https://accounts.google.com/ServiceLogin?passive=1209600&continue=https%3A%2F%2Faccounts.google.com%2FManageAccount&followup=https%3A%2F%2Faccounts.google.com%2FManageAccount .... et ensuite passé a la moulinette chaque lien trouvé dans le script de récupération de données.
Sachant qu'il existe pour un site , certain nom de champs 
for item in document.getElementsByTagName('item'):

Qu'il n'existera plus sur un autre site.... Sa me donnera un code de 200 lignes environ si l'on compte tout les champs pour chaque sites? A repasé autant de fois qu'il y aura de lien sur ma page Igoogle.
Soit j'ai tout faux, soit je vais dans la bonne direction ?

CCM · Answer

J'ajoute que 
sur ma page igoogle, j'ai un lien par exemple  qui pointe vers -->  https://www.securityfocus.com/bid/28392
Et le code source de cette même page le lien est le suivant -->  href="#" onclick="return _del('7',25,'url=http://www.securityfocus.com/rss/vulnerabilities.xml')

En gros je ne récupère pas les liens de mes pages !! :(

clic_droitSAsertAquoi · Answer

Debut de mon code

#!/usr/bin/python
# -*- coding: iso-8859-1 -*-
import urllib, sys, xml.dom.minidom

eeye = ‘https://www.beyondtrust.com/resources’
red = ‘http://www.red-database-security.com/advisory/published_alerts.xml’
securityfocus = ‘https://www.securityfocus.com/rss/vulnerabilities.xml’
securitydotnews = ‘http://securitydot.net/rss/news.xml’
securitydotvuln = ‘http://securitydot.net/rss/vulnerabilities.xml’
securitylab = ‘https://www.securitylab.ru/_services/export/rss/notification.php’
idefens = ‘http://labs.idefense.com/rss/intelligence.rss.php?type=vulnerabilities’
zdi = ‘http://feeds.feedburner.com/ZDI-Published-Advisories’
idg = ‘http://feeds.feedburner.com/idg_fr/rt2/virus-alertes/rss’

doceeye = xml.dom.minidom.parse(urllib.u'rlopen(eeye))
docred = xml.dom.minidom.parse(urllib.urlopen(red))
docsecurityfocus = xml.dom.minidom.parse(urllib.urlopen(securityfocus))
docsecuritydotnews = xml.dom.minidom.parse(urllib.urlopen(securitydotnews))
docsecuritydotvuln = xml.dom.minidom.parse(urllib.urlopen(securitydotnews))
docsecuritylab = xml.dom.minidom.parse(urllib.urlopen(securitylab))
docidefens = xml.dom.minidom.parse(urllib.urlopen(idefens))
doczdi = xml.dom.minidom.parse(urllib.urlopen(zdi))
docidg = xml.dom.minidom.parse(urllib.urlopen(idg))



for item in doceeye.getElementsByTagName('item'):
    titre = item.getElementsByTagName('title')[0].firstChild.data
    description = item.getElementsByTagName('desc')[0].firstChild.data
    date = item.getElementsByTagName('date')[0].firstChild.data
    produit = item.getElementsByTagName('product')[0].firstChild.data
    print "Titre: %s" % titre.encode('latin-1','replace')

for item in docred.getElementsByTagName('item'):
    titre = item.getElementsByTagName('title')[0].firstChild.data
    description = item.getElementsByTagName('desc')[0].firstChild.data
    date = item.getElementsByTagName('date')[0].firstChild.data
    produit = item.getElementsByTagName('product')[0].firstChild.data
    print "Titre: %s" % titre.encode('latin-1','replace')

for item in dosecurityfocus.getElementsByTagName('item'):
    titre = item.getElementsByTagName('title')[0].firstChild.data
    description = item.getElementsByTagName('desc')[0].firstChild.data
    date = item.getElementsByTagName('date')[0].firstChild.data
    produit = item.getElementsByTagName('product')[0].firstChild.data
    print "Titre: %s" % titre.encode('latin-1','replace')

for item in docdotnews.getElementsByTagName('item'):
    titre = item.getElementsByTagName('title')[0].firstChild.data
    description = item.getElementsByTagName('desc')[0].firstChild.data
    date = item.getElementsByTagName('date')[0].firstChild.data
    produit = item.getElementsByTagName('product')[0].firstChild.data
    print "Titre: %s" % titre.encode('latin-1','replace')


Voila mes premières ligne de python... qu'en pense tu?
Où est-ce que tu va récupérer les noms des items? (ici j'ai mit des noms au pif (date product, title, desc ...)

sebsauvage · Answer

Grosso-modo, c'est ça.

Mais c'est bien d'utiliser des tableaux plutôt que de recopier le code à chaque fois.


Où est-ce que tu va récupérer les noms des items?

Le nom des logiciels impactés ne fait pas partie de la norme RSS.
RSS ne permet que de donner titre, résumé, lien, date (grosso-modo).

Après chaque site de sécurité possède ses pages propre, avec des structures différentes pour chaque.
Chaque site fait à sa sauce, et tu ne pourra pas faire autrement que de faire des développements spécialisés pour chaque site.

(Chaque site diffuse peut-être un flux dans un format particulier, avec plus de détails. Ou pire: ils n'ont pas de flux plus détaillé: il faudra aller interpréter leurs pages HTML pour en extraire le contenu.)


Bon courage !

CCM · Answer

RSS ne permet que de donner titre, résumé, lien, date (grosso-modo).

Donc il faut que je laisse tomber les RSS, trop pauvre en informations.... Il faudrai que je me rende sur les sites directement.

Après chaque site de sécurité possède ses pages propre, avec des structures différentes pour chaque. 
Le problème c'est comme je l'avais expliqué tout à l'heure, on ne connais pas les URL exacte pour extraire des informations.
Les urls sont du type www.securityblablabla.com/vulnerabilite/xpsp2/bugNum97812.html et varient a chaque page!
 Sa sous entendrais qu'il faut que j'aille consulter la page, que je prenne l'url, que je developpe un petit agent pour cette page spécifique et ce pour chaque page !!   Non?

sebsauvage · Answer

Je suggère:
Que tu utilise le flux RSS du site.
Pour chaque nouvel ITEM: aller cherche la page HTML indiquée dans le LINK,
puis extraire de cette page HTML ce qui t'intéresse (n°version, etc.)

-CCM- · Answer

Mes flux rss ne me retournent aucun LINK ! Je n'ai pas l'adresse des articles qui apparait dans la source de ma page contenant les flux.

sebsauvage · Answer

Si je prend celui-là: http://www.red-database-security.com/advisory/published_alerts.xml Je vois: SQL Injection in SYS.KUPV$FT_INT in Oracle 10g. Rel. 1 17 Jan 2006 18:00:00 GMT http://www.red-database-security.com/advisory/oracle_sql_injection_kupv$$ft_int.html Event 10053 logs TDE wallet password in cleartext 17 Jan 2006 13:00:00 GMT http://www.red-database-security.com/advisory/oracle_tde_wallet_password.html Transparent Data Encryption stores key unencrypted in the SGA 17 Jan 2006 13:00:00 GMT http://www.red-database-security.com/advisory/oracle_tde_unencrypted_sga.html Il y a bien des balises link. Idem pour les autres. Tu as peut-être entré LINK en majuscules ?

sebsauvage · Answer

euh...  tu as quoi comme navigateur ?

http://www.red-database-security.com/advisory/published_alerts.xml
quand je fais "voir le code source", j'obtiens ce que j'ai montré plus haut.

Je n'obtient pas du HTML mais de l'XML.

Je te suggère de changer de navigateur. Prend Firefox.

-CCM- · Answer

heuuu J'ai bien firefox ..... Le code source de la page : http://www.red-database-security.com/advisory/published_alerts.xml c'est : Personnalisez votre page d'accueilAide - À propos de Google - iGoogle in English

©2008 Google pour ma part ... Enfaite sa me renvoi sur cette page : https://www.google.com

sebsauvage · Answer

Quand la page http://www.red-database-security.com/advisory/published_alerts.xml
est affichée, comme recupère-tu le code source ?

Enregistrer-sous, ou bien clic-droit > voir le code source.

-CCM- · Answer

Ah ok, j'en étais sur que sa venais d'un lecteur rss qui se mettait en route automatiquement.
La sa va mieux, j'affiche la page avec mes link.

Recuperer les flux rss. (j'ai ma liste"statique" de flux)
------recuperer tout mes link, (recuperer les link qui sont "dynamiques")
---------------pour chaque link
---------------recuperer les données (l'emplacement des données est different d'un site a un autre)
------fin des link de la page
fin des pages

sebsauvage · Answer

Ton algo me semble ok.

Pour extraire des infos d'une page HTML, il y a plusieurs méthodes (expressions régulières, BeautifulSoup, etc.)
Le choix est libre.

Quelques exemples:
https://sebsauvage.net/python/snyppets/index.html#getlinks1
https://sebsauvage.net/python/snyppets/index.html#getlinks2
https://sebsauvage.net/python/snyppets/index.html#getlinks3
https://sebsauvage.net/python/snyppets/index.html#getlinks4

-CCM- · Answer

import re, urllib securityfocus = ‘https://www.securityfocus.com/rss/vulnerabilities.xml’ linksListsecurityfocus = re.findall('.*?',securityfocus) for link in linksList: titre = item.getElementsByTagName('title')[0].firstChild.data identifiant = item.getElementsByTagName('???')[0].firstChild.data CVE = item.getElementsByTagName('???')[0].firstChild.data print "Titre: %s" % titre.encode('latin-1','replace') print "Identifiant: %s" % identifiant.encode('latin-1','replace') print "CVE: : %s" % cve.encode('latin-1','replace') Qu'en pense tu ? Par contre je ne trouve pas de balise pour retrouver les autres infos : International Components for Unicode Library (libicu) Multiple Memory Corruption Vulnerabilities

Bugtraq ID: 27455 Class: Unknown CVE: CVE-2007-4770
CVE-2007-4771
Remote: Yes Local: No Published: Jan 25 2008 12:00AM title pour le titre , ok, mais pour le "Bugtraq ID", le "CVE" la "Published date" , il n'y a pas de item...ou de class, comment faire ?

sebsauvage · Answer

securityfocus = ‘https://www.securityfocus.com/rss/vulnerabilities.xml’ linksListsecurityfocus = re.findall('.*?',securityfocus) euh... dans les fichiers RSS, les liens sont les balises , et pas . Par contre je ne trouve pas de balise pour retrouver les autres infos : HTML n'utilisant que des balises "générale" (sans signification sémantique comme RSS), il faut ruser. Par exemple pour récupérer le bugtraqID, il faut: rechercher la balise contenant le texte "Bugtraq ID:", puis prendre le texte qui suit la balise , jusqu'au premier suivant trouvé. Ce cera donc à toi d'étudier la structure de chaque site pour extraire ce qu'iintéresse de leur page HTML (en priant pour que la structure de leur page ne change pas trop souvent).

-CCM- · Answer

Merci .

Récuperer des infos depuis des sites web

36 réponses

Discussions similaires

Newsletters