[Webmaster] Empêcher l'aspiration de mon site

Dernière mise à jour le 20 novembre 2009 à 14:35 par marlalapocket
Publié par sebsauvage

Méthode 1 : Le fichier robots.txt


Ce fichier sert à donner des instructions aux robots des moteurs de recherche qui se baladent sur les sites. Vous pouvez leur indiquer les URL à suivre ou ne pas suivre. Vous pouvez même donner des directives différentes pour chaque moteur de recherche.

Voir l'article correspondant.

Problèmes liés aux robots-rules


Cependant, la méthode du robots-rules n'est pas totalement efficace:
  • Certains moteurs ne respectent pas les robots-rules.
  • Certaines logiciels peuvent être configurés pour ignorer ces directives (par exemple HTTrack)
  • Certains très mauvais robots vont exprès suivre les URLs que vous leur avez demandé de ne pas suivre.

Méthode 2 : Un peu de programmation


Voici une méthode particulièrement efficace pour empêcher les robots de ramasser tout votre site, mais elle nécessite de modifier chaque page de votre site.

Voici l'astuce:
  • Incluez dans toutes vos pages un GIF transparent de 1x1, placé à un endroit totalement incongru dans la page.
  • Faite un hyperlien de cette image vers une URL spéciale de votre site (par exemple /dontclickme.php)
  • Dans cette page dontclickme.php, ajoutez l'IP dans la liste des IP à bannir (par exemple dans une table mySQL). Banissez cette IP pendant 30 minutes ou 1 heure.
  • Et dans chaque page de votre site, quand une requête arrive, vérifiez que l'IP ne fait pas partie des IP bannies.


Ainsi:
  • Les internautes normaux ne cliqueront jamais sur cette image invisible minuscule. Ils ne seront donc pas bannis et pourront naviguer sans problème sur tout votre site.
  • Les robots, eux, tentent de suivre tous les liens, et suivront donc également ce lien: Ils seront immédiatement bannis.


Notez que cette seconde méthode n'est pas non plus fiable à 100%: Il est toujours possible de configurer les logiciels (comme HTTrack) pour éviter soigneusement votre URL de bannissement (dontclickme.php).
Elle est cependant très efficace et arrêtera la grande majorité des copieurs.


Cependant, n'oubliez pas que certains internautes n'ont pas toujours un accès aisé à une connexion internet, et que récupérer le site en local est peut-être le seul moyen pour eux de consulter votre site.
Agissez avec parcimonie.

Liens


Voici un lien complémentaire donnant d'autres méthodes:
Meilleures réponses pour « Empêcher l'aspiration de mon site » dans :
[Aspirateur de pages HTML] Comment aspirer un site Web ? Voir HTTrack est un excellent aspirateur, gratuit en licence GNU GPL (libre). HTTrack permet de télécharger un site web d'Internet vers votre disque dur, en construisant récursivement tous les répertoires, récupérant html, images et fichiers du serveur...
[Webmaster] Empêcher la copie de mes images (et autres) VoirA tous ceux qui veulent empêcher la copie de leurs images, leurs créations, leurs vidéos, leurs articles, etc... Je veux empêcher les autres de copier mes images et mes pages HTML. Comment faire ? Réponse: C'EST IMPOSSIBLE Il n'existe aucun...
Télécharger HTTrack VoirHTTrack est un aspirateur de site très puissant et open source. Ses nombreuses options de configuration en font un outil de pointe : choix du type de fichier à télécharger et de leur taille maximale, nombre de téléchargements simultanés, ... De...