Extraire données sur fichier HTML

Fermé
Mravatel - Modifié par Mravatel le 11/06/2010 à 10:05
 Utilisateur anonyme - 11 juin 2010 à 11:09
Bonjour,

<title> Extraire données sur fichier HTML</title>



J'ai un fichier txt appelé vigicrue.txt qui ressemble à ceci:

.../...

<div class="coindh"></div>
</div>
<div class="contenu_cadre">
<p class='titre_cadre'>Vaubarlet (Dunières) - Débits en m3/s</p><p> </p><table class='liste'><tr><th>Date</th><th>Vaubarlet</th></tr><tr bgcolor='#CCCCFF'><td>11/06/2010 08:00</td><td align='right'>3</td></tr><tr bgcolor='#F2F2FF'><td>11/06/2010 07:30</td><td align='right'>3</td></tr><tr bgcolor='#CCCCFF'><td>11/06/2010 07:00</td><td align='right'>3</td></tr><tr bgcolor='#F2F2FF'><td>11/06/2010 06:30</td><td align='right'>3</td></tr><tr bgcolor='#CCCCFF'><td>11/06/2010 06:00</td><td align='right'>3</td></tr><tr bgcolor='#F2F2FF'><td>11/06/2010 05:30</td><td align='right'>3</td></tr><tr bgcolor='#CCCCFF'><td>11/06/2010 05:00</td><td align='right'>3</td></tr><tr bgcolor='#F2F2FF'><td>11/06/2010 04:30</td><td align='right'>3</td></tr><tr bgcolor='#CCCCFF'><td>11/06/2010 04:00</td><td align='right'>3</td></tr><tr bgcolor='#F2F2FF'><td>11/06/2010 03:30</td><td align='right'>3</td></tr><tr bgcolor='#CCCCFF'><td>11/06/2010 03:00</td><td align='right'>3</td></tr><tr bgcolor='#F2F2FF'><td>11/06/2010 02:30</td><td align='right'>3</td></tr><tr bgcolor='#CCCCFF'><td>11/06/2010 02:00</td><td align='right'>3</td></tr><tr bgcolor='#F2F2FF'><td>11/06/2010 01:30</td><td align='right'>2</td></tr><tr bgcolor='#CCCCFF'><td>11/06/2010 01:00</td><td align='right'>2</td></tr><tr bgcolor='#F2F2FF'><td>11/06/2010 00:30</td><td align='right'>2</td></tr><tr bgcolor='#CCCCFF'><td>11/06/2010 00:00</td><td align='right'>2</td></tr><tr bgcolor='#F2F2FF'><td>10/06/2010 23:30</td><td align='right'>2</td></tr><tr bgcolor='#CCCCFF'><td>10/06/2010 23:00</td><td align='right'>2</td></tr><tr bgcolor='#F2F2FF'><td>10/06/2010 22:30</td><td align='right'>2</td></tr><tr bgcolor='#CCCCFF'><td>10/06/2010 22:00</td><td align='right'>2</td></tr><tr bgcolor='#F2F2FF'><td>10/06/2010 21:30</td><td align='right'>2</td></tr><tr bgcolor='#CCCCFF'><td>10/06/2010 21:00</td><td align='right'>2</td></tr><tr bgcolor='#F2F2FF'><td>10/06/2010 20:30</td><td align='right'>2</td></tr><tr bgcolor='#CCCCFF'><td>10/06/2010 20:00</td><td align='right'>2</td></tr><tr bgcolor='#F2F2FF'><td>10/06/2010 19:30</td><td align='right'>2</td></tr><tr bgcolor='#CCCCFF'><td>10/06/2010 19:00</td><td align='right'>2</td></tr><tr bgcolor='#F2F2FF'><td>10/06/2010 18:30</td><td align='right'>2</td></tr><tr bgcolor='#CCCCFF'><td>10/06/2010 18:00</td><td align='right'>2</td></tr><tr bgcolor='#F2F2FF'><td>10/06/2010 17:30</td><td align='right'>2</td></tr><tr bgcolor='#CCCCFF'><td>10/06/2010 17:00</td><td align='right'>2</td></tr><tr bgcolor='#F2F2FF'><td>10/06/2010 16:30</td><td align='right'>2</td></tr><tr bgcolor='#CCCCFF'><td>10/06/2010 16:00</td><td align='right'>2</td></tr><tr bgcolor='#F2F2FF'><td>10/06/2010 15:30</td><td align='right'>2</td></tr><tr bgcolor='#CCCCFF'><td>10/06/2010 15:00</td><td align='right'>2</td></tr><tr bgcolor='#F2F2FF'><td>10/06/2010 14:30</td><td align='right'>2</td></tr><tr bgcolor='#CCCCFF'><td>10/06/2010 14:00</td><td align='right'>2</td></tr><tr bgcolor='#F2F2FF'><td>10/06/2010 13:30</td><td align='right'>2</td></tr><tr bgcolor='#CCCCFF'><td>10/06/2010 13:00</td><td align='right'>2</td></tr><tr bgcolor='#F2F2FF'><td>10/06/2010 12:30</td><td align='right'>2</td></tr><tr bgcolor='#CCCCFF'><td>10/06/2010 12:00</td><td align='right'>2</td></tr><tr bgcolor='#F2F2FF'><td>10/06/2010 11:30</td><td align='right'>2</td></tr><tr bgcolor='#CCCCFF'><td>10/06/2010 11:00</td><td align='right'>2</td></tr><tr bgcolor='#F2F2FF'><td>10/06/2010 10:30</td><td align='right'>2</td></tr><tr bgcolor='#CCCCFF'><td>10/06/2010 10:00</td><td align='right'>2</td></tr><tr bgcolor='#F2F2FF'><td>10/06/2010 09:30</td><td align='right'>2</td></tr><tr bgcolor='#CCCCFF'><td>10/06/2010 09:00</td><td align='right'>2</td></tr><tr bgcolor='#F2F2FF'><td>10/06/2010 08:30</td><td align='right'>2</td></tr><tr bgcolor='#CCCCFF'><td>10/06/2010 08:00</td><td align='right'>2</td></tr><tr bgcolor='#F2F2FF'><td>10/06/2010 07:30</td><td align='right'>2</td></tr><tr bgcolor='#CCCCFF'><td>10/06/2010 07:00</td><td align='right'>2</td></tr><tr bgcolor='#F2F2FF'><td>10/06/2010 06:30</td><td align='right'>2</td></tr><tr bgcolor='#CCCCFF'><td>10/06/2010 06:00</td><td align='right'>2</td></tr><tr bgcolor='#F2F2FF'><td>10/06/2010 05:30</td><td align='right'>2</td></tr><tr bgcolor='#CCCCFF'><td>10/06/2010 05:00</td><td align='right'>2</td></tr><tr bgcolor='#F2F2FF'><td>10/06/2010 04:30</td><td align='right'>2</td></tr><tr bgcolor='#CCCCFF'><td>10/06/2010 04:00</td><td align='right'>2</td></tr><tr bgcolor='#F2F2FF'><td>10/06/2010 03:30</td><td align='right'>2</td></tr><tr bgcolor='#CCCCFF'><td>10/06/2010 03:00</td><td align='right'>2</td></tr><tr bgcolor='#F2F2FF'><td>10/06/2010 02:30</td><td align='right'>2</td></tr><tr bgcolor='#CCCCFF'><td>10/06/2010 02:00</td><td align='right'>2</td></tr><tr bgcolor='#F2F2FF'><td>10/06/2010 01:30</td><td align='right'>2</td></tr><tr bgcolor='#CCCCFF'><td>10/06/2010 01:00</td><td align='right'>2</td></tr><tr bgcolor='#F2F2FF'><td>10/06/2010 00:30</td><td align='right'>2</td></tr><tr bgcolor='#CCCCFF'><td>10/06/2010 00:00</td><td align='right'>2</td></tr><tr bgcolor='#F2F2FF'><td>09/06/2010 23:30</td><td align='right'>2</td></tr><tr bgcolor='#CCCCFF'><td>09/06/2010 23:00</td><td align='right'>2</td></tr><tr bgcolor='#F2F2FF'><td>09/06/2010 22:30</td><td align='right'>2</td></tr><tr bgcolor='#CCCCFF'><td>09/06/2010 22:00</td><td align='right'>2</td></tr><tr bgcolor='#F2F2FF'><td>09/06/2010 21:30</td><td align='right'>2</td></tr><tr bgcolor='#CCCCFF'><td>09/06/2010 21:00</td><td align='right'>2</td></tr><tr bgcolor='#F2F2FF'><td>09/06/2010 20:30</td><td align='right'>2</td></tr><tr bgcolor='#CCCCFF'><td>09/06/2010 20:00</td><td align='right'>2</td></tr><tr bgcolor='#F2F2FF'><td>09/06/2010 19:30</td><td align='right'>2</td></tr><tr bgcolor='#CCCCFF'><td>09/06/2010 19:00</td><td align='right'>2</td></tr><tr bgcolor='#F2F2FF'><td>09/06/2010 18:30</td><td align='right'>2</td></tr><tr bgcolor='#CCCCFF'><td>09/06/2010 18:00</td><td align='right'>2</td></tr><tr bgcolor='#F2F2FF'><td>09/06/2010 17:30</td><td align='right'>2</td></tr><tr bgcolor='#CCCCFF'><td>09/06/2010 17:00</td><td align='right'>2</td></tr><tr bgcolor='#F2F2FF'><td>09/06/2010 16:30</td><td align='right'>2</td></tr><tr bgcolor='#CCCCFF'><td>09/06/2010 16:00</td><td align='right'>2</td></tr><tr bgcolor='#F2F2FF'><td>09/06/2010 15:30</td><td align='right'>2</td></tr><tr bgcolor='#CCCCFF'><td>09/06/2010 15:00</td><td align='right'>2</td></tr><tr bgcolor='#F2F2FF'><td>09/06/2010 14:30</td><td align='right'>2</td></tr><tr bgcolor='#CCCCFF'><td>09/06/2010 14:00</td><td align='right'>2</td></tr><tr bgcolor='#F2F2FF'><td>09/06/2010 13:30</td><td align='right'>2</td></tr><tr bgcolor='#CCCCFF'><td>09/06/2010 13:00</td><td align='right'>3</td></tr><tr bgcolor='#F2F2FF'><td>09/06/2010 12:30</td><td align='right'>3</td></tr><tr bgcolor='#CCCCFF'><td>09/06/2010 12:00</td><td align='right'>3</td></tr><tr bgcolor='#F2F2FF'><td>09/06/2010 11:30</td><td align='right'>3</td></tr><tr bgcolor='#CCCCFF'><td>09/06/2010 11:00</td><td align='right'>3</td></tr><tr bgcolor='#F2F2FF'><td>09/06/2010 10:30</td><td align='right'>3</td></tr><tr bgcolor='#CCCCFF'><td>09/06/2010 10:00</td><td align='right'>3</td></tr><tr bgcolor='#F2F2FF'><td>09/06/2010 09:30</td><td align='right'>3</td></tr><tr bgcolor='#CCCCFF'><td>09/06/2010 09:00</td><td align='right'>3</td></tr><tr bgcolor='#F2F2FF'><td>09/06/2010 08:30</td><td align='right'>3</td></tr><tr bgcolor='#CCCCFF'><td>09/06/2010 08:00</td><td align='right'>3</td></tr><tr bgcolor='#F2F2FF'><td>09/06/2010 07:30</td><td align='right'>3</td></tr><tr bgcolor='#CCCCFF'><td>09/06/2010 07:00</td><td align='right'>3</td></tr><tr bgcolor='#F2F2FF'><td>09/06/2010 06:30</td><td align='right'>3</td></tr><tr bgcolor='#CCCCFF'><td>09/06/2010 06:00</td><td align='right'>3</td></tr><tr bgcolor='#F2F2FF'><td>09/06/2010 05:30</td><td align='right'>3</td></tr><tr bgcolor='#CCCCFF'><td>09/06/2010 05:00</td><td align='right'>3</td></tr><tr bgcolor='#F2F2FF'><td>09/06/2010 04:30</td><td align='right'>3</td></tr><tr bgcolor='#CCCCFF'><td>09/06/2010 04:00</td><td align='right'>3</td></tr><tr bgcolor='#F2F2FF'><td>09/06/2010 03:30</td><td align='right'>3</td></tr><tr bgcolor='#CCCCFF'><td>09/06/2010 03:00</td><td align='right'>3</td></tr><tr bgcolor='#F2F2FF'><td>09/06/2010 02:30</td><td align='right'>3</td></tr><tr bgcolor='#CCCCFF'><td>09/06/2010 02:00</td><td align='right'>3</td></tr><tr bgcolor='#F2F2FF'><td>09/06/2010 01:30</td><td align='right'>3</td></tr><tr bgcolor='#CCCCFF'><td>09/06/2010 01:00</td><td align='right'>3</td></tr><tr bgcolor='#F2F2FF'><td>09/06/2010 00:30</td><td align='right'>3</td></tr><tr bgcolor='#CCCCFF'><td>09/06/2010 00:00</td><td align='right'>3</td></tr><tr bgcolor='#F2F2FF'><td>08/06/2010 23:30</td><td align='right'>3</td></tr><tr bgcolor='#CCCCFF'><td>08/06/2010 23:00</td><td align='right'>3</td></tr><tr bgcolor='#F2F2FF'><td>08/06/2010 22:30</td><td align='right'>3</td></tr><tr bgcolor='#CCCCFF'><td>08/06/2010 22:00</td><td align='right'>3</td></tr><tr bgcolor='#F2F2FF'><td>08/06/2010 21:30</td><td align='right'>3</td></tr><tr bgcolor='#CCCCFF'><td>08/06/2010 21:00</td><td align='right'>3</td></tr><tr bgcolor='#F2F2FF'><td>08/06/2010 20:30</td><td align='right'>3</td></tr><tr bgcolor='#CCCCFF'><td>08/06/2010 20:00</td><td align='right'>3</td></tr><tr bgcolor='#F2F2FF'><td>08/06/2010 19:30</td><td align='right'>3</td></tr><tr bgcolor='#CCCCFF'><td>08/06/2010 19:00</td><td align='right'>3</td></tr><tr bgcolor='#F2F2FF'><td>08/06/2010 18:30</td><td align='right'>3</td></tr><tr bgcolor='#CCCCFF'><td>08/06/2010 18:00</td><td align='right'>3</td></tr><tr bgcolor='#F2F2FF'><td>08/06/2010 17:30</td><td align='right'>3</td></tr><tr bgcolor='#CCCCFF'><td>08/06/2010 17:00</td><td align='right'>3</td></tr><tr bgcolor='#F2F2FF'><td>08/06/2010 16:30</td><td align='right'>3</td></tr><tr bgcolor='#CCCCFF'><td>08/06/2010 16:00</td><td align='right'>3</td></tr><tr bgcolor='#F2F2FF'><td>08/06/2010 15:30</td><td align='right'>3</td></tr><tr bgcolor='#CCCCFF'><td>08/06/2010 15:00</td><td align='right'>3</td></tr><tr bgcolor='#F2F2FF'><td>08/06/2010 14:30</td><td align='right'>3</td></tr><tr bgcolor='#CCCCFF'><td>08/06/2010 14:00</td><td align='right'>3</td></tr><tr bgcolor='#F2F2FF'><td>08/06/2010 13:30</td><td align='right'>3</td></tr><tr bgcolor='#CCCCFF'><td>08/06/2010 13:00</td><td align='right'>3</td></tr><tr bgcolor='#F2F2FF'><td>08/06/2010 12:30</td><td align='right'>3</td></tr><tr bgcolor='#CCCCFF'><td>08/06/2010 12:00</td><td align='right'>3</td></tr><tr bgcolor='#F2F2FF'><td>08/06/2010 11:30</td><td align='right'>3</td></tr><tr bgcolor='#CCCCFF'><td>08/06/2010 11:00</td><td align='right'>3</td></tr><tr bgcolor='#F2F2FF'><td>08/06/2010 10:30</td><td align='right'>3</td></tr><tr bgcolor='#CCCCFF'><td>08/06/2010 10:00</td><td align='right'>3</td></tr><tr bgcolor='#F2F2FF'><td>08/06/2010 09:30</td><td align='right'>3</td></tr><tr bgcolor='#CCCCFF'><td>08/06/2010 09:00</td><td align='right'>3</td></tr><tr bgcolor='#F2F2FF'><td>08/06/2010 08:30</td><td align='right'>3</td></tr><tr bgcolor='#CCCCFF'><td>08/06/2010 08:00</td><td align='right'>3</td></tr></table><p> </p>
<div class="txtscreen">
<form id="form1" name="form1" method="get" action="niveau3.php">
<input type="hidden" name="idstation" value="446"/>

.../...

je veux récupérer la date, l'heure et le chiffre et mettre tout ça dans une base de donnée appelé crue.

Je sais que je dois faire une boucle pour aller lire toute les lignes que j'ai besoin, de créer un tableau et d'insérer toutes les données de mon tableau dans la base de données.

J'ai du mal à savoir comment m'y prendre. Si quelqu'un pouvait m'aider, ce serait sympa. ceci a un but écologique, c'est pour connaitre les débits d'eau des rivières d'une année à l'autre.

Merci à tous.
A voir également:

3 réponses

Utilisateur anonyme
11 juin 2010 à 10:34
salut !
tu travails sous quel language?
0
Bonjour Nagashima,

je pense vouloir travailler en Perl qui me semble le plus adapté pour utilser la manipulation de fichier même si je suis débutant. Je peus m'en sortir en ayant des connaissances en C
0
Utilisateur anonyme
11 juin 2010 à 10:59
ok alors si tu est libre du point de vue du language, je te conseil d'utiliser le c++.
http://www.cplusplus.com/reference/fstream/fstream/

avec ca, tu aura une fonction getline qui récupèrera ligne par ligne (sache que tu as un curseur qui se déplace dans le fichier, mais que si tu ne fais que récupérer des lignes, tu n'as pas à t'en soucier).

en trés gros ca te ferai


//il faut ouvrir le fichier, pour toi ca sera en lecture
while( getline(/*la c'est ton truc*/) )
{
//ici le traitement de ta ligne
}


après je te laisse chercher avec le liens que je t'ai donné (tu trouvera facilement une aide en francais)

sinon en c, tu as les FILE* (recherche fopen par exemple, tu trouvera ce que tu cherche)

en utilisant fread, tu lira le nombre de caractères voulu (c'est un paramètre)
je pense qu'en c c'est le mieux car si tu lis 500 caractères, tu saura plus facilement ou t'arrêter dans ton traitement, mais après c'est comme tu veux ()tu as de toutes facon strlen qui te retournera le nombre de caractères lus)

je te laisse lire les aides, comment par exemple à juste lire un fichier et afficher sur l'écran pour bien comprendre le fonctionnement =)
0
Ok, merci Nagashima.
je pense plutot m'orienter avec du Perl. J'ai des pistes mais pas trop de connaissance. J'ai entednu parler du module Cpan Parser: HTML.
0
Utilisateur anonyme
11 juin 2010 à 11:09
ok bah en perl je ne connais pas, mais ccm a l'air d'avoir un bon truc :
https://www.commentcamarche.net/contents/778-perl-les-fichiers

ca a plutôt l'air simple donc ca devrait le faire ;)

bonne chance !
0