Chercher de l'information sur le web invisible

Décembre 2016

Comment chercher de l'information pertinente sur le web quand on travaille dans un domaine très spécialisé ? Si « Google » ou « Bing » sont bien souvent suffisants pour répondre aux requêtes courantes, ces outils ne donnent à voir que la « partie émergée » du web. Ils n'affichent qu'un tiers des contenus disponibles en ligne, le reste échappant aux robots d'indexation, et faisant partie du "web invisible" ou web profond. De fait, c'est tout un pan du web qui échappe à l'utilisateur en quête d'informations pointues. Ce qu'on appelle le « web profond » recèle de nombreuses ressources pour les chercheurs, les scientifiques, documentalistes, les net surfeurs et les spécialistes de l'e-veille dans de nombreux secteurs. Mais quels outils utiliser, et pour quelles applications ?


Qu'est-ce que le web invisible ou le web profond ?


Le « web profond » et par extension le web invisible désigne la partie du web partiellement ou non indexée par les moteurs de recherche. Celle-ci est accessible en ligne, mais nécessite des outils de recherche spécifique (voir ci-dessous) capables de faire remonter les contenus « invisibles » : pages web, bases de données, articles de revues scientifiques, documents PDF, images/vidéos.

On estime que le web profond représente environ les ¾ des ressources accessibles sur internet.
Plusieurs types de contenus de qualité échappent en effet aux robots d'indexation.

Les principales raisons empêchant leur indexation :

- Certains documents sont trop volumineux. Certaines bases de données sont trop complexes pour que les contenus correspondant soient indexés.
- Certaines pages sont protégées par l'auteur du contenu, d'autres sont seulement générées sur la base d'un recherche dynamique, certaines nécessitent une authentification/mot de passe, enfin une très grande quantité de pages sont orphelines (absence de lien pointant vers leur URL).

Chercher de l'information sur le web invisible : pour qui et pour quels usages ?


Le web profond propose des ressources utiles à différentes catégories de professionnels cherchant à documenter leur travail. Dans différents domaines d'activités et pour différentes applications:
  • Recherche académique (mathématiques, médecine, sciences humaines, etc.) : pour trouver des documents techniques, articles de revues spécialisées, thèses, informations issues de bases de données spécialisées, publications scientifiques, etc.
  • Veille technologique/sectorielle/concurrentielle : certains moteurs (voir ci-dessous) permettent d'interroger de larges bases de connaissances sur des domaines très techniques, pour faire remonter les derniers articles parus sur ces domaines (ex : recherche par mot-clé, source du contenu, auteur, etc.).
  • Documentation d'entreprise : en cherchant le web profond, les cyberdocumentalistes ont accès à des informations plus précises/documentées pour enrichir la base de connaissances mise à disposition des collaborateurs de l'entreprise. A noter que certains outils de recherche permettent d'avoir accès aux anciennes versions de sites web, ce qui permet d'en suivre l'évolution par exemple.
  • Indexation de contenus : notamment pour les net surfeurs, qui cherchent des contenus pertinents pour enrichir la base des moteurs de recherche/portails ou annuaires web.

Les outils de recherche gratuits


Études sectorielles, articles de revues spécialisées, webinars : ce site recense les ressources (majoritairement en anglais) issues de différents sites/bibliothèques et permet de créer des alertes mail correspondant à des mots-clés dans le cadre d'une veille d'informations.
  • Mednar : veille médicale/santé (recherche académique)

Ce métamoteur de recherche puise en temps réel dans les ressources de 60 bases de données regroupant des contenus liés à la santé publique (revues médicales, rapports rédigés par des autorités de santé), sur la base de mots-clés déterminés. Il suggère également des résultats thématiquement proches de la requête initiale pour affiner la recherche. Ceux-ci peuvent également être affinés selon plusieurs critères : auteur, éditeur, date de publication, etc.
Ce site/portail génère des résultats issus de plusieurs bases de données scientifiques en réseau et propose près de 50 millions d'articles, livres, rapports, et minutes de conférences dans différents domaines techniques et scientifiques : nouvelles technologies, médecine, sciences humaines, etc.

Autre outil de recherche ayant trait aux sciences : Scienceresearch.com, qui réunit les résultats issus de plus de 300 sources différentes.
  • BASE : recherche académique/bibliographique

Ce moteur de recherche spécialisé dans la recherche académique effectue l'indexation automatique des bibliothèques numériques qui utilisent le protocole Open Archives Initiative Protocol (protocole d'échange de métadonnées). Il permet de faire remonter les résultats issus de base de données partenaires, qui ne sont pas indexées par les moteurs de recherche classique. Il particulièrement pertinent pour enrichir une recherche bibliographique.

A voir également :

Ce document intitulé «  Chercher de l'information sur le web invisible  » issu de CommentCaMarche (www.commentcamarche.net) est mis à disposition sous les termes de la licence Creative Commons. Vous pouvez copier, modifier des copies de cette page, dans les conditions fixées par la licence, tant que cette note apparaît clairement.