Webmaster - Empêcher l'aspiration de mon site
Méthode 1 : Le fichier robots.txt
Ce fichier sert à donner des instructions aux robots des moteurs de recherche qui se baladent sur les sites. Vous pouvez leur indiquer les URL à suivre ou ne pas suivre. Vous pouvez même donner des directives différentes pour chaque moteur de recherche.
Voir l'article correspondant.
Problèmes liés aux robots-rules
Cependant, la méthode du robots-rules n'est pas totalement efficace:
- Certains moteurs ne respectent pas les robots-rules.
- Certaines logiciels peuvent être configurés pour ignorer ces directives (par exemple HTTrack)
- Certains très mauvais robots vont exprès suivre les URLs que vous leur avez demandé de ne pas suivre.
Méthode 2 : Un peu de programmation
Voici une méthode particulièrement efficace pour empêcher les robots de ramasser tout votre site, mais elle nécessite de modifier chaque page de votre site.
Voici l'astuce:
- Incluez dans toutes vos pages un GIF transparent de 1x1, placé à un endroit totalement incongru dans la page.
- Faite un hyperlien de cette image vers une URL spéciale de votre site (par exemple /dontclickme.php)
- Dans cette page dontclickme.php, ajoutez l'IP dans la liste des IP à bannir (par exemple dans une table mySQL). Banissez cette IP pendant 30 minutes ou 1 heure.
- Et dans chaque page de votre site, quand une requête arrive, vérifiez que l'IP ne fait pas partie des IP bannies.
Ainsi:
- Les internautes normaux ne cliqueront jamais sur cette image invisible minuscule. Ils ne seront donc pas bannis et pourront naviguer sans problème sur tout votre site.
- Les robots, eux, tentent de suivre tous les liens, et suivront donc également ce lien: Ils seront immédiatement bannis.
Notez que cette seconde méthode n'est pas non plus fiable à 100%: Il est toujours possible de configurer les logiciels (comme HTTrack) pour éviter soigneusement votre URL de bannissement (dontclickme.php).
Elle est cependant très efficace et arrêtera la grande majorité des copieurs.
Cependant, n'oubliez pas que certains internautes n'ont pas toujours un accès aisé à une connexion internet, et que récupérer le site en local est peut-être le seul moyen pour eux de consulter votre site.
Agissez avec parcimonie.
Liens
Voici un lien complémentaire donnant d'autres méthodes: