Webmaster - Empêcher l'aspiration de mon site

Décembre 2016


Méthode 1 : Le fichier robots.txt


Ce fichier sert à donner des instructions aux robots des moteurs de recherche qui se baladent sur les sites. Vous pouvez leur indiquer les URL à suivre ou ne pas suivre. Vous pouvez même donner des directives différentes pour chaque moteur de recherche.

Voir l'article correspondant.

Problèmes liés aux robots-rules


Cependant, la méthode du robots-rules n'est pas totalement efficace:
  • Certains moteurs ne respectent pas les robots-rules.
  • Certaines logiciels peuvent être configurés pour ignorer ces directives (par exemple HTTrack)
  • Certains très mauvais robots vont exprès suivre les URLs que vous leur avez demandé de ne pas suivre.

Méthode 2 : Un peu de programmation


Voici une méthode particulièrement efficace pour empêcher les robots de ramasser tout votre site, mais elle nécessite de modifier chaque page de votre site.

Voici l'astuce:
  • Incluez dans toutes vos pages un GIF transparent de 1x1, placé à un endroit totalement incongru dans la page.
  • Faite un hyperlien de cette image vers une URL spéciale de votre site (par exemple /dontclickme.php)
  • Dans cette page dontclickme.php, ajoutez l'IP dans la liste des IP à bannir (par exemple dans une table mySQL). Banissez cette IP pendant 30 minutes ou 1 heure.
  • Et dans chaque page de votre site, quand une requête arrive, vérifiez que l'IP ne fait pas partie des IP bannies.


Ainsi:
  • Les internautes normaux ne cliqueront jamais sur cette image invisible minuscule. Ils ne seront donc pas bannis et pourront naviguer sans problème sur tout votre site.
  • Les robots, eux, tentent de suivre tous les liens, et suivront donc également ce lien: Ils seront immédiatement bannis.


Notez que cette seconde méthode n'est pas non plus fiable à 100%: Il est toujours possible de configurer les logiciels (comme HTTrack) pour éviter soigneusement votre URL de bannissement (dontclickme.php).
Elle est cependant très efficace et arrêtera la grande majorité des copieurs.


Cependant, n'oubliez pas que certains internautes n'ont pas toujours un accès aisé à une connexion internet, et que récupérer le site en local est peut-être le seul moyen pour eux de consulter votre site.
Agissez avec parcimonie.

Liens


Voici un lien complémentaire donnant d'autres méthodes:

A voir également :

Ce document intitulé «  Webmaster - Empêcher l'aspiration de mon site  » issu de CommentCaMarche (www.commentcamarche.net) est mis à disposition sous les termes de la licence Creative Commons. Vous pouvez copier, modifier des copies de cette page, dans les conditions fixées par la licence, tant que cette note apparaît clairement.