Créer une discussion Signaler

Scroogle

sebsauvage 33667Messages postés 29 août 2001Date d'inscription ModérateurStatut 16 janvier 2012Dernière intervention - Dernière réponse le 1 mars 2010 à 11:30
Scroogle est un proxy qui utilise Google pour faire les recherches.
Résultats en une seul page, sans pub, sans cookies.

http://www.scroogle.org/cgi-bin/scraper.htm

Curieux.

Le proxy est même téléchargeable et vous pouvez l'installer chez vous (c'est un petit programme en C).

Un article à propos de Scroogle:
http://www.theregister.co.uk/2005/01/11/open_source_google_scraper/
Lire la suite 

Scroogle »

24 réponses
Réponse
+2
moins plus
Par contre ça ne semble renvoyer que 100 résultats...

Qui va en mer pour son plaisir,
irait en enfer pour ses vacances
Réponse
-1
moins plus
Dommage ils utilisent la méthode POST, je crois pas que l'on puisse faire un search plugin pour mozilla :-S

Qui va en mer pour son plaisir,
irait en enfer pour ses vacances
Réponse
+0
moins plus
ah oui tiens ils n'acceptent pas les GET. Dommage.
Réponse
+0
moins plus
tiens a propos je suis tombé par hasard sur une remarque de Chris DiBona (qui apparemment a un lien avec google, cf http://it.slashdot.org/article.pl?sid=05/01/12/1655246) sur son blog:
http://egofood.blogspot.com/. regardez l'article ' The Register is Pretty Funny..' :o)

asky |L'intelligence artificielle se définit comme 
     |le contraire de la bêtise naturelle.
sebsauvageAsKy - 13 janv. 2005 à 19:13
oui effectivement :-)


Ceci dit, Andrew Orlowski n'a pas totalement tort.

J'ai écris le programme webGobbler (http://sebsauvage.net/python/webgobbler ) en évitant soigneusement Google car ils ne veulent pas être interrogés par des programmes.
C'était la volonté de Google, j'ai respecté ça.


Après avoir lu l'article d'Andrew je me suis dit:
Et m*rde !
Google gagne des millions de dollars en récupérant le travail des autres. Nos sites, nos pages.
Alors pourquoi est-ce que je ne pourrais pas utiliser Google en retour, d'autant plus que je gagne pas le moindre centime là dessus ?


Alors j'ai décidé d'inclure Google dans webGobbler.
(Le collecteur est déjà développé et il marche. ll sera dispo dans la prochaine version).


Les autres moteurs de recherche sont nettement plus conciliants.
Ils acceuillent avec plaisir les développeurs (voir par exemple l'auteur de WebCollage: AltaVista lui a gracieusement développé un cgi rien que pour lui pour lui faciliter la tâche ! :-o
AsKy- 13 janv. 2005 à 19:33
je suis d'accord, Andrew Orlowski n'a pas tort, mais c juste que la remarque m'a fait marrer j'avais meme pas fait attention en plus :)

sinon, je vois pas l'interet qu'a google a se 'refermer' comme ca en refusant d'etre interrogés par d'autres... c'est a cause des AdWords? mais ils n'interviennent pas dans les images !?

(interessant webgobbler d'ailleurs j'ai regardé les apercus)

asky |L'intelligence artificielle se définit comme 
     |le contraire de la bêtise naturelle.
SirHillsebsauvage - 13 janv. 2005 à 19:52
On peut interroger Google en passant par son API [http://www.google.com/apis/], mais le nombre de requêtes est limité...


Alors j'ai décidé d'inclure Google dans webGobbler.

Comment as-tu procédé ? :)
sebsauvage- 13 janv. 2005 à 21:09
le nombre de requêtes est limité...

Oui 1000 par jour. C'est pas beaucoup.
Dommage parcequ'il paraît que leur API est bien conçue.


Comment as-tu procédé ? :)

Quand Google voit arriver Python (User-agent: Python-urllib/2.1), il répond par une erreur HTTP 403 (Forbidden, interdit).

Je prend la même requête, mais je change le User-Agent (j'en met 12 différents, pris à chaque fois au hasard), et... miracle ! Google répond aux requêtes.
(J'ai quand même prix la précaution d'ajouter webGobbler au user-agent.)

Ensuite je décortique la page html que Google me renvoie pour extraire les URL des images.
SirHillSirHill - 13 janv. 2005 à 22:01
Merci ! :-)
SirHillSirHill - 13 janv. 2005 à 22:49
Par contre, avec cette technique, les conditions d'utilisation [http://www.google.fr/intl/fr/terms.html] ne sont pas respectées ?!
sebsauvage- 13 janv. 2005 à 23:14
Je vais jouer mon gros con, mais:

Elles ne le sont pas, en effet.

Mais de l'autre côté, Google n'a pas non plus respecté les miennes.
("Toute reproduction est interdite sans le visa de l'auteur.")

Non seulement ils indexent, mais ils les reproduisent même intégralement:
http://www.google.fr/search?q=cache:UCje-tIYgt4J:sebsauvage.net/+sebsauvage&hl=fr

Et non seulement Google réutilise mes pages, mais ils font de l'argent sur mes pages.


Moi, je ne recopie rien appartenant à Google, je ne fais pas d'argent dessus non plus.

Je consomme un peu de leur CPU, tout comme ils consomment un peu de mes CPU quand ils viennent explorer mon site.

Plutôt équitable, non ?
sebsauvageSirHill - 13 janv. 2005 à 23:21
Je ne comprend pas de quoi Google a peur.

Les autres moteurs sont heureux d'être utilisés, et ils comportent pourtant bien plus de publicité !
kilian- 14 janv. 2005 à 19:53
Peut être pour éviter les robots malveillants, genre collecteur d'email. Ce peut être une protection pour ceux qui se référencent chez google (même si je doute que ce soit très efficace)...

Li4uLlZvdHJlIGTpdm916SBzZXJ2aXRldXIuLi4u
kilianSirHill - 13 janv. 2005 à 23:22
Salut,

Tu ne préfères pas te rabattre sur d'autres moteurs de recherche?

Li4uLlZvdHJlIGTpdm916SBzZXJ2aXRldXIuLi4u
sebsauvage- 13 janv. 2005 à 23:25
webGobbler utilise déjà AskJeeves, Yahoo et DeviantArt.
J'ai seulement ajouté Google.

En fait, supprimer le robot Google de mon programme n'aurait que très peu d'impact.
kiliankilian - 13 janv. 2005 à 23:29
Parce qu'en fait, l'indexation de ton site sur google, c'est un contrat : tu décides ou non de te référencer chez eux, c'est toi qui contrôle les robots des moteurs de recherche à partir du fichier robot.txt ....

Li4uLlZvdHJlIGTpdm916SBzZXJ2aXRldXIuLi4u
SirHillkilian - 13 janv. 2005 à 23:37
Exact, tout comme les pages en cache...
sebsauvagekilian - 14 janv. 2005 à 18:04
Avec la version 1.0 beta 7 de webGobbler (à paraître), toute requête HTTP émise vers Google (et vers tout autre serveur, d'ailleurs) sera désormais clairement identifié comme "webGobbler/1.0b7" dans le User-Agent.


Si Google me demande de retirer le "collecteur" Google de mon programme, je le ferai.

En attendant, ne faisant qu'un usage privé et non-commercial de Google, j'invoque le droit de "fair use".
teebo- 17 janv. 2005 à 08:33
en attendant la use fare :-S

Qui va en mer pour son plaisir,
irait en enfer pour ses vacances
sebsauvage- 17 janv. 2005 à 09:37
lopocomprî :-.
teeboteebo - 17 janv. 2005 à 09:44
Taxe d'utilisation :o)

Qui va en mer pour son plaisir,
irait en enfer pour ses vacances
sebsauvageteebo - 17 janv. 2005 à 09:50
ah ok.
Réponse
+0
moins plus
Tiens, en passant, la version1.0 beta 9 de webGobbler est dispo.

L'économiseur d'écran fonctionne, mais il faut encore écrire l'interface graphique de configuration (pour le moment ça ne peut se configurer qu'en ligne de commande.).
Et il faut encore construire les binaries à la main (avec cx_freeze).
Réponse
+0
moins plus
Une version "française" plus conviviale, plus pratique :
http://www.scroogle.fr se rpésente comme nimporte quel moteur de recherche (style google) et affiche les résultats de Google ! (puissance de recherche, fiabilité etc... mais protection des données personnelles et de l'IP).
Dossier à la une
Passage au tout numérique : quel coût pour les particuliers ?