Bonjour,
j'essaie d'ecrire une sorte de crawler simplifie pour pouvoir sauvegarder une copie hors ligne d'un site web chez moi...
le tout etant encore experimental, j'ai rencontre ces qqes difficultes:
- pages web dynamique, comment savoir si une page est dynamique ou non, est ce qu'il y a un caractere special dans le URL ou qqe chose du genre?
- liens relatifs, comment savoir? suffit-il de verifier le nom du domaine?
- frames, comment les traiter comme de simples pages html? les telecharger separement?
- liens externes, comment eviter? suffit-il de verifier le nom du domaine?
- robots.txt , comment verifier ce fichier sur un site et comment interpreter l'information?
- cookies, authentification, serveur securise, comment gerer? j'utilise python mais je suis pas sur qu'il a toutes les fonctions necessaires
ceci dit, je rappelle que ce que je fait est un robot assez simplifie...
faites moi part aussi de qqe autre probleme qui m'aurait echappe, merci
Configuration: Windows XP
Firefox 2.0.0.14