URLs acceptées par java.net

Fermé
Peyrouz - 6 oct. 2003 à 11:28
 peyrouz - 17 nov. 2003 à 14:40
bonjour,

Je suis actuellement en train de travailler sur un progamme de veille sur internet. Le but de ce programme est de trouver de nouveaux liens a partir d'un liste de liens fournie. Lorsqu'il trouve un nouveau lien il le rajoute a une autre liste.

Le problème que je rencontre est que le programme me parse bien tous les liens mais ne prend pas en compte les .shtml, il les voit mais ne les enregistre pas. Les .asp sont bien pris en compte.

J'ai également testé sur un site contenant un mélange de html et de shtml, et le programme ne m'a pris en compte que les .html(il les a rajoutés a la liste) alors qu'il me parsait bien les .shtml.

Cela vient-il de la classe URLs du paquet java.net ?
Prend il en compte toutes les sortes d'URL ou est il limité ?

Je vous remercie d'avance de votre aide,

Cordialement,

Nicolas

3 réponses

Nettogrof Messages postés 521 Date d'inscription lundi 29 septembre 2003 Statut Membre Dernière intervention 8 décembre 2005 672
6 oct. 2003 à 16:07
Salut,

C'est une bonne question, j'ai essayer de trouver une solution a ton problème, et mais rien pour le moment.

Si tu comprends l'anglais, le site de Sun http://java.sun.com
et son forum peuvent t'aider....

je suis présentement entrain de le parcourir pour trouver la solution

Nettogrof tseb era seiromem emoS
0
j'ai regardé les spécifs de la classe URL dans l'aide JAVA mais rien n'indique que le shtml ne serait pas pris en compte d'autant plus que le programme parse bien ces URL, ya juste qu'il ne les ajoute pas a la nouvele liste.
L'erreur vient peut etre d'ailleurs dans le programme: je viens de le recuperer, il n'est pas de moi et je ne comprends pas encore tout ce qui a été fait dedans.
Je vais tout de même parcourir le site de Sun.

Merci pour ton aide
0
Voilà, je viens de retomber sur ce post et je me suis rappelé que j'avais la réponse. Alors si y'en a que ça intéresse...
en fait le problème semble venir des serveurs (Apache) qui ne seraient pas capable de retourner le content-length (dans l'en-tete HTTP) des fichiers shtml sans configuration particulière (ou en tout cas une valeur correcte; j'ai testé en faisant des requetes HTPP et c'est vrai, ya pas de content-length dans la reponse).
du coup, comme le programme que j'utilise fait un test sur le content-length (il n'accepte que les pages de plus de 1000 octets) et ben la plupart des pages shtml sont ignorées.

Voilà la réponse à ce mystère :-p
0