Rechercher : dans
Par :

[JAVA] suppression des balises HTML

Dernière réponse le 10 jan 2007 à 11:03:20 Nicocotiers, le 18 jun 2004 à 10:35:46 
 Signaler ce message aux modérateurs

Bonjour, je mets à votre disposition un code java pour supprimer toutes les balises html d'1 fichier passé en parametres pour sauvegarder les données dans un fichier .txt

public void supprimerBalises(String adresse){ // nettoyer le fichier html de toutes ses balises afin de trouver facilement les données

String adresse2="C:\\monfichier.txt";

int flot=0;

try{
FileReader flotLecture = new FileReader(adresse);
FileWriter fw = new FileWriter(adresse2,true);
BufferedWriter output = new BufferedWriter(fw);



flot=flotLecture.read(); //on lit le flot. si flot =-1 fin du fichier
char car=(char)flot;
char lu=(char)flot;

while(flot!=-1){ // TQ pas fin du fichier

if(car=='<') //pour reperer le début balises
{
while(lu!='>'){ //TQ pas à la fin de la balise
flot = flotLecture.read();
lu=(char)flot;
}
flot = flotLecture.read(); //on lit le carcater suivant car ici on était toujours sur le caractère "<"
lu=(char)flot;
car=lu;

}
else{ // si on n'est pas dans une balise

lu=(char)flot;
output.write(lu); //on écrit dans le buffer
flot=flotLecture.read(); //on lit le caracter suivant puis on reboucle si on n'est pas en fin de fichier
car=(char)flot;
}

}// while(flot!=-1)

output.flush(); //on envoie le buffer dans le fichier de destination ici:"C:\\monfichier.txt"
output.close(); //on ferme le buffer et le filereader flotlecture
flotLecture.close();
}catch (IOException e) {
System.out.println(" erreur :" + e.toString());
}

}// supprimerBalises

Meilleures réponses pour « [JAVA] suppression des balises HTML » dans :
[Site web] Vérifier, optimiser et nettoyer son code HTML VoirLes logiciels WYSIWYG de création de pages web produisent parfois du contenu HTML rempli de balises HTML inutiles, voire incompatibles avec les recommandations du W3C. Les outils proposés ci-dessous permettent de vérifier la validité du code HTML...
Supprimer les anciennes versions de Java avec JavaRa VoirJavaRa A propos de la gestion des machines virtuelles Java Présentation de JavaRa Exemple de rapport émis par JavaRa A propos de la gestion des machines virtuelles Java Pour des mises à jour ciblées de java Sun a finalement donné une...
Les balises dans la partie 'head' VoirAvant tout : rappel sur le doctype La partie head Balises meta Mots clés Description Déclaration de la langue du site Catégorie Auteur Restrictions pour les moteurs de recherche Adresse de la page Logiciels utilisés pour la...
Télécharger HTML Tidy fr VoirHTML Tidy est un utilitaire permettant de vérifier et d'optimiser tout code HTML. Cette version est la version 1.1.5.0, c'est-à-dire la version de base ! Ayant remarqué que les débutants avaient des problèmes dans l'utilisation de la version...
Les balises HTML VoirHTML, un langage à balises Le HTML n'est pas un langage de programmation. Il s'agit d'un langage permettant de décrire la mise en page et la forme d'un contenu rédigé en texte simple. Une page HTML est ainsi un simple fichier texte...
Introduction au HTML VoirPrésentation du HTML Le HTML (« HyperText Mark-Up Language ») est un langage dit de « marquage » (de « structuration » ou de « balisage ») dont le rôle est de formaliser l'écriture d'un document avec des balises de formatage. Les balises permettent...
Introduction aux Java Server Pages VoirPrésentation des Java Server Pages Les JSP (Java Server Pages) sont un standard permettant de développer des applications Web interactives, c'est-à-dire dont le contenu est dynamique. C'est-à-dire qu'une page web JSP (repérable par l'extension...

1

Lita, le 18 jun 2004 à 11:07:20

Merci,
Il est bien ton code ;-)) Mais pour nettoyer un fichier html, faut aussi supprimer ceux qui sont dans les balises head, et script.
Et puis quand on a <br> faudrait le remplacer par \n par exemple.
N'empêche, ton code donne de bonnes idées.
;-)))

Répondre à Lita

2

a5cools, le 9 jan 2007 à 21:04:43

Ce a5cools j'ai vraiment un probleme de referencement d'une image sur de moteur de recherche tels que google , etc....
que ce lui qui sait bien pour m'aider qu'il m'ecrive sur : a5cools@yahoo.fr

Répondre à a5cools

3

 Reivax962, le 10 jan 2007 à 11:03:20

Bonjour,

C'est bourrin, quand même, comme façon de faire !
Imagine que dans ta page, tu aies des maths... Je sais bien que les signes < et > sont, alors, censés être écrits & lt; et & gt; (j'ai mis des espaces pour que ce e soit pas interprété), mais ce n'est pas toujours, voire pas souvent le cas !
Donc, si la page contient, par exemple,

<div>Ce qui nous donne l'inéquation <span class="formule">x < 3y+1</span></div>
, ta méthode donnera
Ce qui nous donne l'inéquation x 
au lieu de
Ce qui nous donne l'inéquation x < 3y+1
Je pense que la meilleure solution à ce problème serait plutôt de rechercher les balises existantes, elles ne sont pas si courantes que ça... Mais forcément, du coup, ça marche moins bien sur les fichiers XML.

Xavier

Répondre à Reivax962