Donnez votre avis

Google propose un nouveau standard pour indexer le Web

Hervé Didier - mardi 2 juillet 2019 - 16:22
Google propose un nouveau standard pour indexer le Web
Google voudrait que le Web devienne plus facile à indexer par son moteur de recherche. Pour cela, l'entreprise propose que son protocole d’exclusion des robots devienne un standard officiel de la Toile.

(CCM) — Google vient de demander officiellement la création d'un nouveau standard d'utilisation des fichiers "robots.txt" par les webmasters. Ce protocole normalisé faciliterait la tâche des robots d'indexation – dont son Googlebot maison - lors de leurs visites des pages d'un site Internet.

Les fichiers « robots.txt » sont utilisés par les webmasters pour lister les règles d'indexation des pages de leurs sites par les moteurs de recherche. Ils servent par exemple à interdire l'accès à certains contenus. Les principes du Robots Exclusion Protocol - REP - ont été posés en 1994. Depuis, son fonctionnement a fait ses preuves : il est à la fois souple pour les éditeurs de sites et solide pour des moteurs de recherche sans cesse à l'affût de nouveaux contenus à indexer.

Mais après 25 ans de bons et loyaux services, Google veut mettre de l'ordre dans l'utilisation du REP, que les webmasters ont eu tendance à interpréter dans tous les sens possibles (certains fichiers robots.txt pèsent plusieurs centaines de méga-octets). Le moteur de recherche veut également mettre à jour les normes pour tenir compte des évolutions récentes du web.

Une demande officielle a donc été transmise à l'IETF - Internet Engineering Task Force - qui gère les protocoles sur Internet. Pour appuyer sa démarche, Google a également annoncé sur son blog (lien en anglais) le passage en open source de son outil de lecture des fichiers robots.txt. Avec son parser, le moteur de recherche a déjà indexé plus de 500 millions de sites au cours des vingt dernières années. Cela représente une expérience incomparable dans la maîtrise des fichiers robots.txt, au point que Google est aujourd'hui capable d'écrire le nouveau standard de l'un des fondements les plus critiques du Web.

Photo : © Chalermphon Kumchai - 123RF.com

A voir également

Ajouter un commentaire

Commentaires

Patrick-Lyon
Messages postés
27
Date d'inscription
samedi 6 mars 2010
Statut
Membre
Dernière intervention
28 juillet 2019
5
Bonjour,
J'ai lu ailleurs, sur des sites de référencement, que cela aurait pour effet que toutes les pages d'un site seraient indexées.

En gros, jusqu'à présent, on pouvait (en cochant une cases sur Wordpress) demander que les moteurs de recherche n'indexent pas cette page (cela évitait de doublons). Avec ce nouveau standard, cette option n'existerait plus.

A confirmer.
babacool45
Messages postés
81
Date d'inscription
samedi 15 janvier 2011
Statut
Membre
Dernière intervention
8 octobre 2019

Connaissant Google on se demande ce que cela peux cacher