Création
d'entreprise

Chercher de l'information sur le web invisible

Comment chercher de l'information pertinente sur le web quand on travaille dans un domaine très spécialisé ? Si « Google » ou « Bing » sont bien souvent suffisants pour répondre aux requêtes courantes, ces outils ne donnent à voir que la « partie émergée » du web. Ils n'affichent qu'un tiers des contenus disponibles en ligne, le reste échappant aux robots d'indexation, et faisant partie du "web invisible" ou web profond. De fait, c'est tout un pan du web qui échappe à l'utilisateur en quête d'informations pointues. Ce qu'on appelle le « web profond » recèle de nombreuses ressources pour les chercheurs, les scientifiques, documentalistes, les net surfeurs et les spécialistes de l'e-veille dans de nombreux secteurs. Mais quels outils utiliser, et pour quelles applications ?


Qu'est-ce que le web invisible ou le web profond ?


Le « web profond » et par extension le web invisible désigne la partie du web partiellement ou non indexée par les moteurs de recherche. Celle-ci est accessible en ligne, mais nécessite des outils de recherche spécifique (voir ci-dessous) capables de faire remonter les contenus « invisibles » : pages web, bases de données, articles de revues scientifiques, documents PDF, images/vidéos.

On estime que le web profond représente environ les ¾ des ressources accessibles sur internet.
Plusieurs types de contenus de qualité échappent en effet aux robots d'indexation.

Les principales raisons empêchant leur indexation :

- Certains documents sont trop volumineux. Certaines bases de données sont trop complexes pour que les contenus correspondant soient indexés.
- Certaines pages sont protégées par l'auteur du contenu, d'autres sont seulement générées sur la base d'un recherche dynamique, certaines nécessitent une authentification/mot de passe, enfin une très grande quantité de pages sont orphelines (absence de lien pointant vers leur URL).

Chercher de l'information sur le web invisible : pour qui et pour quels usages ?


Le web profond propose des ressources utiles à différentes catégories de professionnels cherchant à documenter leur travail. Dans différents domaines d'activités et pour différentes applications:
  • Recherche académique (mathématiques, médecine, sciences humaines, etc.) : pour trouver des documents techniques, articles de revues spécialisées, thèses, informations issues de bases de données spécialisées, publications scientifiques, etc.
  • Veille technologique/sectorielle/concurrentielle : certains moteurs (voir ci-dessous) permettent d'interroger de larges bases de connaissances sur des domaines très techniques, pour faire remonter les derniers articles parus sur ces domaines (ex : recherche par mot-clé, source du contenu, auteur, etc.).
  • Documentation d'entreprise : en cherchant le web profond, les cyberdocumentalistes ont accès à des informations plus précises/documentées pour enrichir la base de connaissances mise à disposition des collaborateurs de l'entreprise. A noter que certains outils de recherche permettent d'avoir accès aux anciennes versions de sites web, ce qui permet d'en suivre l'évolution par exemple.
  • Indexation de contenus : notamment pour les net surfeurs, qui cherchent des contenus pertinents pour enrichir la base des moteurs de recherche/portails ou annuaires web.

Les outils de recherche gratuits


Études sectorielles, articles de revues spécialisées, webinars : ce site recense les ressources (majoritairement en anglais) issues de différents sites/bibliothèques et permet de créer des alertes mail correspondant à des mots-clés dans le cadre d'une veille d'informations.
  • Mednar : veille médicale/santé (recherche académique)

Ce métamoteur de recherche puise en temps réel dans les ressources de 60 bases de données regroupant des contenus liés à la santé publique (revues médicales, rapports rédigés par des autorités de santé), sur la base de mots-clés déterminés. Il suggère également des résultats thématiquement proches de la requête initiale pour affiner la recherche. Ceux-ci peuvent également être affinés selon plusieurs critères : auteur, éditeur, date de publication, etc.
Ce site/portail génère des résultats issus de plusieurs bases de données scientifiques en réseau et propose près de 50 millions d'articles, livres, rapports, et minutes de conférences dans différents domaines techniques et scientifiques : nouvelles technologies, médecine, sciences humaines, etc.

Autre outil de recherche ayant trait aux sciences : Scienceresearch.com, qui réunit les résultats issus de plus de 300 sources différentes.
  • BASE : recherche académique/bibliographique

Ce moteur de recherche spécialisé dans la recherche académique effectue l'indexation automatique des bibliothèques numériques qui utilisent le protocole Open Archives Initiative Protocol (protocole d'échange de métadonnées). Il permet de faire remonter les résultats issus de base de données partenaires, qui ne sont pas indexées par les moteurs de recherche classique. Il particulièrement pertinent pour enrichir une recherche bibliographique.
Publié par CommentCaMarche - Dernière mise à jour le 29 mars 2011 à 17:36 par _tomy_
Ce document intitulé « Chercher de l'information sur le web invisible » issu de CommentCaMarche (www.commentcamarche.net) est mis à disposition sous les termes de la licence Creative Commons. Vous pouvez copier, modifier des copies de cette page, dans les conditions fixées par la licence, tant que cette note apparaît clairement.
Suggestions
  •  Chercher de l'information sur le web invisible
  •  Surfer anonymement » Fiches pratiques : Rien de plus frustrant de savoir que lorsque l'on surfe sur Internet, l'ordinateur laisse des traces. En effet, lorsque l'on se connecte à un site, l'ordinateur est identifié par son adresse IP, stockée par le site distant et par tous les sites...
  •  Auto-Reactualisation d'une page HTML (Résolu) » Meilleure réponse: Il existe un code HTML pour cela... : <head> <META HTTP-EQUIV="Refresh" CONTENT="30; URL=http://www.tonSite.com/page.html"> </head> Il va faire un reload au 30 seconde. Nettogrof tseb era seiromem emoS
  •  Meteo a inserer sur son site (Résolu) » Meilleure réponse: Bonjour, Si la version sur mon site te plait http://annonce55-54.xooit.fr tu peut la prendre a cette adresse. http://www.freemeteo.com/
  •  PHP - Récuperer le rendu d'une page (Résolu) » Bonjour, ca fait longtemps que j'ai pas posté, mais là j'ai un soucis. Voilà, j'ai un espace personnel sur un serveur PHP, et je voudrais à partir d'un script PHP recuperer le contenu d'une page: pas la source, simuler un click droit puis afficher la...
  •  La recherche d'informations sur le Web influence l'achat des consommateurs » Actualités : (Paris - Relax news) - 40% des internautes européens effectuant des recherches sur Internet sur une marque précise avant de l'acheter changent d'avis et renoncent à l'acheter, selon l'étude annuelle EIAA (European Interactive Advertising Association)...
Dossier à la une
Passage au tout numérique : quel coût pour les particuliers ?
Utiliser Dropbox dans un contexte professionnel
Les meilleures extensions Google Chrome pour les pros