Rechercher : dans
Par :

Comment empecher l'aspiration de son site?

Dernière réponse le 9 mar 2008 à 10:01:53 Amandine, le 15 oct 2004 à 11:20:24 
 Signaler ce message aux modérateurs

Bonjour,

J'aimerais sécuriser mon site de manière à ce que personne ne puisse l'aspirer. Est-ce possible sans mot de passe? Comment puis-je faire?

Merci d'avance

Amandine

Meilleures réponses pour « Comment empecher l'aspiration de son site? » dans :
Référencer son site : les moteurs de recherche Voir Voici quelques autres "trucs" à savoir pour référencer un site. Les moteurs de recherche où il faut à tout prix présenter son site : 1) DMOZ ( www.dmoz.org). Ce site est très important car Google, Yahoo, Lycos, Voila... vont tous rechercher des...
Référencer un/son site Voir Comment référencer un site 1- Renseigner les balises méta 2- Référencer son site 3 - Les logiciels qui peuvent vous aider 4 - Autres liens sur ce sujet 1- Renseigner les balises méta Insérées dans chaque en-tête de page, les metatags...
Publier un fichier PDF sur son site VoirSommaire: Publier un PDF sur son site Conseils Afficher un PDF intégré à une page Téléchargement Convertir un PDF en SWF (Flash) Publier le SWF Astuces et conseils Publier un PDF sur son site Publier un fichier PDF en ligne est en...
Ajouter son site dans les moteurs de recherche VoirComment ajouter son site dans les moteurs de recherche C'est une question que tous se posent ... Le principe est le même mais le fonctionnement est parfois différent selon les moteurs ! En voici donc quelques-uns, mais dans une liste non...
Protéger son site internet contre les contrefaçons VoirIl vous est sûrement déjà arrivé de craindre (ou de constater) que quelqu'un s'approprie des oeuvres que vous avez publiées (sur internet ou tout autre support) afin de mettre à son profit vos créations. Il est impossible d'empêcher des personnes...

1

Jeff, le 15 oct 2004 à 11:44:33

Tu ne pourras jamais empêcher quelqu'un à 100% d'aspirer ton site web. Par contre si tu as accès à la configuration du serveur, il est possible de bloquer les principaux aspirateurs.

Sais-tu quel serveur héberge ton site web ?

                                   
Jeff  \--Webmaster@CCM--/ 

Répondre à Jeff

2

Amandine, le 15 oct 2004 à 11:58:45
  • +1

Je sais que mon hébergeur est phpnet.org en serveur mutualisé.
Est -ce que ça répond à ta question?

Merci pour ton aide

Répondre à Amandine

3

Jeff, le 15 oct 2004 à 13:08:28
  • +2

S'il s'agit d'un serveur Apache, tu peux le faire directement au niveau de la configuration (éventuellement dans un fichier .htaccess) en ajoutant les lignes suivantes :

        RewriteEngine on
        RewriteCond %{HTTP_USER_AGENT} "BackWeb" [OR]
        RewriteCond %{HTTP_USER_AGENT} "eCatch" [OR]
        RewriteCond %{HTTP_USER_AGENT} "HTTrack" [NC,OR]
        RewriteCond %{HTTP_USER_AGENT} "teleport" [NC,OR]
        RewriteCond %{HTTP_USER_AGENT} "webcopier"
        RewriteRule !^avertissement.*$ /avertissement.php3 [L]


Dans l'exemple ci-dessus, toute personne essayant d'aspirer le contenu de CommentCaMarche.net avec un des 5 aspirateurs cités est redirigé vers http://www.commentcamarche.net/avertissement.php3


Si tu n'as pas accès aux fichiers de configuration de Apache, tu peux éventuellement mettre un morceau de code PHP de ce type en début de tes fichiers :

<?
function areyouabot()
{
   
global $HTTP_SERVER_VARS;

   $RobotsList = array (
   "antibot",
   "appie",
   "architext",
   "bjaaland",
   "digout4u",
   "echo",
   "fast-webcrawler",
   "ferret",
   "googlebot",
   "gulliver",
   "harvest",
   "htdig",
   "ia_archiver",
   "jeeves",
   "jennybot",
   "linkwalker",
   "lycos",
   "mercator",
   "moget",
   "muscatferret",
   "myweb",
   "netcraft",
   "nomad",
   "petersnews",
   "scooter",
   "slurp",
   "unlost_web_crawler",
   "voila",
   "voyager",
   "webbase",
   "weblayers",
   "wget",
   "wisenutbot",
   "acme.spider",
   "ahoythehomepagefinder",
   "alkaline",
   "arachnophilia",
   "aretha",
   "ariadne",
   "arks",
   "aspider",
   "atn.txt",
   "atomz",
   "auresys",
   "backrub",
   "bigbrother",
   "blackwidow",
   "blindekuh",
   "bloodhound",
   "brightnet",
   "bspider",
   "cactvschemistryspider",
   "cassandra",
   "cgireader",
   "checkbot",
   "churl",
   "cmc",
   "collective",
   "combine",
   "conceptbot",
   "coolbot",
   "core",
   "cosmos",
   "cruiser",
   "cusco",
   "cyberspyder",
   "deweb",
   "dienstspider",
   "digger",
   "diibot",
   "directhit",
   "dnabot",
   "download_express",
   "dragonbot",
   "dwcp",
   "e-collector",
   "ebiness",
   "eit",
   "elfinbot",
   "emacs",
   "emcspider",
   "esther",
   "evliyacelebi",
   "nzexplorer",
   "fdse",
   "felix",
   "fetchrover",
   "fido",
   "finnish",
   "fireball",
   "fouineur",
   "francoroute",
   "freecrawl",
   "funnelweb",
   "gama",
   "gazz",
   "gcreep",
   "getbot",
   "geturl",
   "golem",
   "grapnel",
   "griffon",
   "gromit",
   "hambot",
   "havindex",
   "hometown",
   "htmlgobble",
   "hyperdecontextualizer",
   "iajabot",
   "ibm",
   "iconoclast",
   "ilse",
   "imagelock",
   "incywincy",
   "informant",
   "infoseek",
   "infoseeksidewinder",
   "infospider",
   "inspectorwww",
   "intelliagent",
   "irobot",
   "iron33",
   "israelisearch",
   "javabee",
   "jbot",
   "jcrawler",
   "jobo",
   "jobot",
   "joebot",
   "jubii",
   "jumpstation",
   "katipo",
   "kdd",
   "kilroy",
   "ko_yappo_robot",
   "labelgrabber.txt",
   "larbin",
   "legs",
   "linkidator",
   "linkscan",
   "lockon",
   "logo_gif",
   "macworm",
   "magpie",
   "marvin",
   "mattie",
   "mediafox",
   "merzscope",
   "meshexplorer",
   "mindcrawler",
   "momspider",
   "monster",
   "motor",
   "mwdsearch",
   "netcarta",
   "netmechanic",
   "netscoop",
   "newscan-online",
   "nhse",
   "northstar",
   "occam",
   "octopus",
   "openfind",
   "orb_search",
   "packrat",
   "pageboy",
   "parasite",
   "patric",
   "pegasus",
   "perignator",
   "perlcrawler",
   "phantom",
   "piltdownman",
   "pimptrain",
   "pioneer",
   "pitkow",
   "pjspider",
   "pka",
   "plumtreewebaccessor",
   "poppi",
   "portalb",
   "puu",
   "python",
   "raven",
   "rbse",
   "resumerobot",
   "rhcs",
   "roadrunner",
   "robbie",
   "robi",
   "robofox",
   "robozilla",
   "roverbot",
   "rules",
   "safetynetrobot",
   "search_au",
   "searchprocess",
   "senrigan",
   "sgscout",
   "shaggy",
   "shaihulud",
   "sift",
   "simbot",
   "site-valet",
   "sitegrabber",
   "sitetech",
   "slcrawler",
   "smartspider",
   "snooper",
   "solbot",
   "spanner",
   "speedy",
   "spider_monkey",
   "spiderbot",
   "spiderline",
   "spiderman",
   "spiderview",
   "spry",
   "ssearcher",
   "suke",
   "suntek",
   "sven",
   "tach_bw",
   "tarantula",
   "tarspider",
   "techbot",
   "templeton",
   "teoma_agent1",
   "titin",
   "titan",
   "tkwww",
   "tlspider",
   "ucsd",
   "udmsearch",
   "urlck",
   "valkyrie",
   "victoria",
   "visionsearch",
   "vwbot",
   "w3index",
   "w3m2",
   "wallpaper",
   "wanderer",
   "wapspider",
   "webbandit",
   "webcatcher",
   "webcopy",
   "webfetcher",
   "webfoot",
   "weblinker",
   "webmirror",
   "webmoose",
   "webquest",
   "webreader",
   "webreaper",
   "websnarf",
   "webspider",
   "webvac",
   "webwalk",
   "webwalker",
   "webwatch",
   "whatuseek",
   "whowhere",
   "wired-digital",
   "wmir",
   "wolp",
   "wombat",
   "worm",
   "wwwc",
   "wz101",
   "xget",
   "awbot",
   "bobby",
   "boris",
   "bumblebee",
   "cscrawler",
   "daviesbot",
   "ezresult",
   "gigabot",
   "gnodspider",
   "internetseer",
   "justview",
   "linkbot",
   "linkchecker",
   "nederland.zoek",
   "perman",
   "pompos",
   "pooodle",
   "redalert",
   "shoutcast",
   "slysearch",
   "ultraseek",
   "webcompass",
   "yandex",
   "robot",
   "bot",
   "psbot",
   "crawl"
   );

   $botID = strtolower($HTTP_SERVER_VARS['HTTP_USER_AGENT']);
   $iamabot = 0;
   for ($i = 0; $i < count($RobotsList); $i++)
   {
       
      if ( strstr($botID, $RobotsList[$i]) )
      {
         $iamabot = 1;
         return $iamabot;
      }
       
   }
   return $iamabot;
   
} 


if (areyouabot()) { 
die("Erreur, vous ne pouvez pas aspirer ce site"); 
}


?>




                                   
Jeff  \--Webmaster@CCM--/ 

Répondre à Jeff

4

Amandine, le 15 oct 2004 à 13:29:35
  • +1

Merci beaucoup pour l'aide , je vais tester .

Répondre à Amandine

5

teutates, le 15 oct 2004 à 15:07:52
  • +1

Je n'avais pas imaginé cette possbilité ! Hop sauvegardé ! Merci Jeff !!!

Toco y se gausos !!!

Répondre à teutates

6

Bruno, le 22 oct 2004 à 17:43:01
  • +1

Bonjour,

J'ai un problème avec un internaute sur mon site qui aspire régulièrement mon site, hier encore 2587 hits. Il bouffe de la bande passante et ça m'énerve car il fait ça tout les 2 jours. J'ai mis en place dans mon fichier .htaccess une restriction pour essayer de l'empêcher de venir sur mon site mais ça ne marche pas, il passe à travers, que faire ?

Son IP est : ppp-217-133-46-130.cust-adsl.tiscali.it

Voici le détail de mon fichier .htaccess :

RewriteEngine on
RewriteCond %{REMOTE_HOST} $cust-adsl\.tiscali\.it [NC,OR]
RewriteCond %{REMOTE_HOST} $tiscali\.it [NC,OR]
RewriteRule .*$ http://membres.lycos.fr/sitepourlesnuls/ [R,L]

Dans ce cas précis j'essaie de bloquer le domaine « tiscali.it » parce que je sais qu'il n'y a que lui qui vient d'Italie et qui a, en plus, tiscali comme provider.

Si quelqu'un a la soluttion, je suis preneur, 1 mois qu'il me bouffe de la bande passante.

Merci d'avance de votre aide.

Bruno.

Répondre à Bruno

7

ThaNerd, le 9 fév 2005 à 14:36:17
  • +2

Le $ va APRÈS le texte de recherche, pas avant!

RewriteEngine on
RewriteCond %{REMOTE_HOST} cust-adsl\.tiscali\.it [NC]
RewriteRule .*$ http://membres.lycos.fr/sitepourlesnuls/ [R,L]

Je sais pas si tu remarque, mais les deux lignes attrapperont les mêmes personnes...

De plus, cette ligne requiert que chaque accès à ton site donne lieu à une requète DNS au préalable, ce qui ralentit considérablement le site...

Enfin, je ne saurai trop te conseiller de rechercher toutes les adresses IP de cette personne et d'utiliser ce code:

Order Allow,Deny
Allow from all
Deny from 217.133.46.130/255.255.255.0

Les adresses IP de providers sont généralement livrées par paquets de 256...
La ligne que j'ai écrite bloquera l'accès depuis les ip comprises entre
217.133.46.0 et 217.133.46.255

Je vois venir le raccourcis facile
Deny from 217.133.46.130/255.255.0.0

Mais ça bloquerais 65536 adresses IP et rien ne dit qu'elles sont TOUTES à tiscali italie...

Evidemment, pour que ce script fonctionne, il faut que pour le répertoire où se trouve to fichier .htaccess, tu ait défini dans la configuration Apache (httpd.conf) la directive suivante :
<Directory "C:\Foo\Bar\site">
Options Limit
</Directory>

Besoin de plus de détails? Je suis là...

Répondre à ThaNerd

8

sebsauvage, le 9 fév 2005 à 16:08:12
  • +1

Il y avait également un site qui utilisait une méthode pas mal:

Une image transparente de taille 1x1 avec un lien vers une URL spéciale.

Aucun internaute normal ne suivrait cette URL.
Les robots la suivent:

Quand tu vois arriver une requête sur cette page spéciale,tu bloque l'adresse IPcorrespondante sur tout ton site pendant une heure.

ça découragera la plupart des aspirateurs de site.
(Mais bien sûr ça peut se contourner, comme le reste.)

Répondre à sebsauvage

9

marquis34, le 3 déc 2007 à 16:06:53
  • +1

Bonjour,

J'aimerais sécuriser mon site de manière à ce que personne ne puisse l'aspirer. Est-ce possible sans mot de passe? Comment puis-je faire?
Je précise que je suis jébergé chez ifrance.com
Merci d'avance

Répondre à marquis34

10

sebsauvage, le 3 déc 2007 à 16:09:52
  • +1

J'aimerais sécuriser mon site de manière à ce que personne ne puisse l'aspirer.

C'est impossible.
On peut toujours aspirer.

Dès le moment où la page s'affiche sur l'écran de l'internaute, il n'y a rien que tu puisse faire pour empêcher son aspiration.

Répondre à sebsauvage

11

MlleDeneb, le 9 mar 2008 à 09:34:03
  • +1

Bonjour a vous !

Bon je ne suis pas vraiment instruite en la matière mais voila la situation et mes questions.

J'ai un site et lorsque je vérifie mon panneau d'information je vois qu'il y a un aspirateur.
Le mois dernier c'était Httrack (ou quelque chose comme ca) et ce mois-ci, Acrobate WebCapture.

Est-ce que ca veux dire que quelqu'un me ''pîque'' mon site ?
Est-ce quelque qui le download pour mieux pour le lire ?

Merci !

Répondre à MlleDeneb

12

 sebsauvage, le 9 mar 2008 à 10:01:53
  • +1

Est-ce que ca veux dire que quelqu'un me ''pîque'' mon site ?

Non pas forcément: moi m'arrive de garder un site (ou une partie) pour le garder au cas où le site disparaîtrait (et c'est arrivé !), ou pour le consulter hors-ligne (je l'emporte sur clé USB pour le lire sur un PC qui n'a pas de connexion internet).

Astuce: Pour trouver si quelqu'un pique ton site, prend certaines phrase de tes pages et recherches-les sur Google.

Répondre à sebsauvage
Collection CommentÇaMarche.net