Les Allergies
Alimentaires
Posez votre question Signaler

Analyse de page web en Python

MisterJA 5Messages postés 13 décembre 2007Date d'inscription - Dernière réponse le 14 déc. 2007 à 11:04
Bonjour à tous
Je suis débutant en la matière et j'aurais besoin de récupérer des informations contenu dans des sites web ( liens, tags, adresses, webmasters... ) en Python.
J'ai télécharger HTTrack ( ne sachant pas vraiment si cela allait m'aider ^^ ).
J'aurais donc besoin d'un programme Python me permettant d'analyser les pages web.
Merci d'avance
Lire la suite 

Analyse de page web en Python »

1 réponses
Réponse
+0
moins plus
Comme je l'ai dit, j'ai mis des exemples là: http://sebsauvage.net/python/snyppets/index.html

Sachant que les 2 grosses parties sont:

- la récupération de la page web (urllib2)
- l'examen du code HTML pour en extraire ce qui t'intéresse (liens, tags, etc.).


Le premier point ne pose pas de problème majeur.
Le second non plus, mais il existe plusieurs méthodes pour examiner le code source HTML d'une page.

BeautifulSoup a l'avantage d'être relativement clair et se débrouille très bien avec les pages HTML très mal formattées. En revanche il est lent.
Les expressions régulières sont rapides, mais les écrire peut parfois être délicat pour ne pas rater certains cas.
Les autres parseurs HTML (SAX, DOM/minidom) marchent aussi, mais n'aime pas le code HTML "incorrecte" qu'on trouve habituellement sur le web.

Enfin, le javascript complique la tâche (on trouve de plus en plus de javascript qui modifie en directe le code HTML).
Ajouter un commentaire
Ce document intitulé « Analyse de page web en Python » issu de CommentCaMarche (www.commentcamarche.net) est mis à disposition sous les termes de la licence Creative Commons. Vous pouvez copier, modifier des copies de cette page, dans les conditions fixées par la licence, tant que cette note apparaît clairement.
Dossier à la une
Passage au tout numérique : quel coût pour les particuliers ?