Téléchargement
illégal

Webmaster - Empêcher l'aspiration de mon site


Méthode 1 : Le fichier robots.txt


Ce fichier sert à donner des instructions aux robots des moteurs de recherche qui se baladent sur les sites. Vous pouvez leur indiquer les URL à suivre ou ne pas suivre. Vous pouvez même donner des directives différentes pour chaque moteur de recherche.

Voir l'article correspondant.

Problèmes liés aux robots-rules


Cependant, la méthode du robots-rules n'est pas totalement efficace:
  • Certains moteurs ne respectent pas les robots-rules.
  • Certaines logiciels peuvent être configurés pour ignorer ces directives (par exemple HTTrack)
  • Certains très mauvais robots vont exprès suivre les URLs que vous leur avez demandé de ne pas suivre.

Méthode 2 : Un peu de programmation


Voici une méthode particulièrement efficace pour empêcher les robots de ramasser tout votre site, mais elle nécessite de modifier chaque page de votre site.

Voici l'astuce:
  • Incluez dans toutes vos pages un GIF transparent de 1x1, placé à un endroit totalement incongru dans la page.
  • Faite un hyperlien de cette image vers une URL spéciale de votre site (par exemple /dontclickme.php)
  • Dans cette page dontclickme.php, ajoutez l'IP dans la liste des IP à bannir (par exemple dans une table mySQL). Banissez cette IP pendant 30 minutes ou 1 heure.
  • Et dans chaque page de votre site, quand une requête arrive, vérifiez que l'IP ne fait pas partie des IP bannies.


Ainsi:
  • Les internautes normaux ne cliqueront jamais sur cette image invisible minuscule. Ils ne seront donc pas bannis et pourront naviguer sans problème sur tout votre site.
  • Les robots, eux, tentent de suivre tous les liens, et suivront donc également ce lien: Ils seront immédiatement bannis.


Notez que cette seconde méthode n'est pas non plus fiable à 100%: Il est toujours possible de configurer les logiciels (comme HTTrack) pour éviter soigneusement votre URL de bannissement (dontclickme.php).
Elle est cependant très efficace et arrêtera la grande majorité des copieurs.


Cependant, n'oubliez pas que certains internautes n'ont pas toujours un accès aisé à une connexion internet, et que récupérer le site en local est peut-être le seul moyen pour eux de consulter votre site.
Agissez avec parcimonie.

Liens


Voici un lien complémentaire donnant d'autres méthodes:
Publié par sebsauvage - Dernière mise à jour le 20 novembre 2009 à 14:35 par marlalapocket
Ce document intitulé « Webmaster - Empêcher l'aspiration de mon site » issu de CommentCaMarche (www.commentcamarche.net) est mis à disposition sous les termes de la licence Creative Commons. Vous pouvez copier, modifier des copies de cette page, dans les conditions fixées par la licence, tant que cette note apparaît clairement.
Suggestions
  •  Webmaster - Empêcher l'aspiration de mon site
  •  Comment empecher l'aspiration de son site? (Résolu) » Meilleure réponse: le $ va APRÈS le texte de recherche, pas avant! RewriteEngine on RewriteCond %{REMOTE_HOST} cust-adsl\.tiscali\.it [NC] RewriteRule .*$ http://membres.lycos.fr/sitepourlesnuls/ [R,L] Je sais pas si tu remarque, mais les deux lignes attr
  •  Empecher l'aspiration d'un site » Bonjour, J'aimerais demander si c'est possible d'empêcher l'aspiration d'un site web?
  •  Comment bloquer un site avec IE (Résolu) » Meilleure réponse: édite ton fichier "Host" (vace Notepad/bloc-note) dans le dossier C:\WINDOWS\system32\drivers\etc tu n'as qu'a lui ajouter 2 lignes 127.0.0.1 meetic.fr 127.0.0.1 www.meetic.fr Le fichier host fait office de serveur DNS local, ainsi quan
  •  Aspirateur de pages HTML - Comment aspirer un site Web ? » Fiches pratiques : HTTrack est un excellent aspirateur, gratuit en licence GNU GPL (libre). HTTrack permet de télécharger un site web d'Internet vers votre disque dur, en construisant récursivement tous les répertoires, récupérant html, images et fichiers du serveur...
  •  Webmaster - Voir à quoi ressemble votre site ailleurs » Fiches pratiques : Vous développez votre site. Vous êtes conscient des différences de prise en charge des standards par les différents navigateurs sur les différentes plate-formes. Vous avez besoin de savoir comment les autres utilisateurs verront votre site....
Dossier à la une
Passage au tout numérique : quel coût pour les particuliers ?
Webmaster - Protéger les adresses email contre les bots
Webmaster - Faire une redirection