Traitement de texte en Python

Fermé
jooshig Messages postés 40 Date d'inscription lundi 30 octobre 2006 Statut Membre Dernière intervention 9 janvier 2008 - 4 févr. 2007 à 12:40
sebsauvage Messages postés 32893 Date d'inscription mercredi 29 août 2001 Statut Modérateur Dernière intervention 21 octobre 2019 - 13 févr. 2008 à 10:23
Bonjour,

Je voudrais faire un programme en Python pour automatiser l'extraction du texte de certaines pages web et les ajouter à la suite d'un texte préexistant.

Je vise d'abord de réaliser le processus élémentaire suivant. Ensuite, je pourrai complexifier.

Dans la page http://www.boursorama.com/forum/message.phtml?file=354639372&pageForum=1 , je voudrais extraire le texte " tjrs pas de news, imressionnant la communication de cette entreprise" et le coller à la suite d'un texte dans un fichier WordPad.

Le petit programme suivant permet de placer le code HTML de la page web en question dans un objet htmlSource:
>>> import urllib
>>> sock = urllib.urlopen("https://www.boursorama.com/bourse/forum/")
>>> htmlSource = sock.read()
>>> sock.close()
>>> print htmlSource


Ensuite, je ne sais plus quoi faire.

Existe-t-il un module Python permettant de transférer le texte de l'objet html Source vers un fichier WordPad ?
Soit dit en passant, je ne sais pas quelle est la nature de l'objet htmlSource. Est-ce un fichier texte ? De quel format ?.....

Existe-il un module Python permettant de manipuler le texte contenu dans un fichier texte, que ce soit htmlSource (si c'est un fichier texte) ou mon fichier WordPad ?
Je veux pouvoir sélectionner des passages, les effacer, ou les déplacer dans le texte en repérant certaines positions par les caractères qui s'y trouvent. Du traitement texte quoi: copier/coller, déplacement, effacement, recherche de caractères.... Mais effectué de façon automatisé par un programme Python.

J'ai passé des heures en recherche. J'ai trouvé des références à cStringIO, à xml.sax.saxutils, à xml.dom.minidom ...... Mais je n'arrive pas à comprendre ce que font ces trucs. Je voudrais eviter de passer des heures a essayer de comprendre ce que fait tel ou tel module et m'apercevoir que cela ne me servira a rien. Je n'ai trouve nulle part de descriptif clair des modules Python.

Merci pour tout tuyau, indication, aide ....

2 réponses

Salut,


Juste pour infos je ne suis pas un crack sur python mais il y a en vente actuellement un magazine de progammation
Qui traite sur Python et il y a un article sur la manipulation des Fichiers.

Alors Bonne chance
0
sebsauvage Messages postés 32893 Date d'inscription mercredi 29 août 2001 Statut Modérateur Dernière intervention 21 octobre 2019 15 655
13 févr. 2008 à 10:23
quelle est la nature de l'objet htmlSource

Un code source html (<html>...)


transférer le texte de l'objet html Source vers un fichier WordPad ?

WordPad ne sait pas lire le format HTML.


Je veux pouvoir sélectionner des passages, les effacer, ou les déplacer dans le texte en repérant certaines positions par les caractères qui s'y trouvent.

Il existe plusieurs méthodes.
Voici un exemple: récupérer tous les liens d'une page HTML:
https://sebsauvage.net/python/snyppets/index.html#getlinks1
https://sebsauvage.net/python/snyppets/index.html#getlinks2
https://sebsauvage.net/python/snyppets/index.html#getlinks3
https://sebsauvage.net/python/snyppets/index.html#getlinks4


J'ai déjà programmé de nombreuses fois l'extraction automatique de données de pages web.
Tu trouvera des exemples dans https://sebsauvage.net/python/snyppets/
0