Comprendre le web sémantique

Septembre 2016

Le Web sémantique, ou « langage naturel » est le Saint Graal sur lequel planchent les chercheurs depuis quelques années.

Pour un de ses théoriciens, Tim Berners-Lee, l'idée est de parvenir à un Web intelligent, où les informations ne seraient plus stockées mais comprises par les ordinateurs, pour apporter à l'utilisateur ce qu'il cherche vraiment. Le Web sémantique permettra donc de rendre le contenu sémantique du Web interprétable non seulement par l'homme, mais aussi par la machine.

L'idée est donc de permettre une recherche intelligente sur le Web, faite par des ordinateurs et basée sur des définitions qu'ils puissent « comprendre », des définitions données pour le monde entier. En faisant une requête sur un moteur proposant de la recherche en langage naturel, vous l'interrogerez comme vous parlez, et il transformera cette demande en langage compréhensible et cohérent pour la machine.

Du gigantesque catalogue qu'il est aujourd'hui, le Web pourrait ainsi se transformer en un guide intelligent, capable d'apporter des réponses complètes et immédiates à des requêtes en langage naturel, et de favoriser le développement de nouvelles formes d'intelligence collective.


Le principe du Web sémantique

Idéalement, le système du Web sémantique doit être capable de donner une réponse complète à une question du type « Je veux partir en vacances cet été en Toscane. J'ai un budget de 4 000 euros. Et nous avons un enfant de 8 ans ». Aujourd'hui, répondre à une telle question va exiger des heures de tri dans des listes distinctes d'hôtels et de location de voitures.

Avec le Web sémantique, la requête appellerait une réponse cohérente, méticuleusement assemblée. Le système travaillera pour vous : il vous classera tous les commentaires et trouvera, par déduction, le bon hôtel.

Pour cela, le Web sémantique repose sur un mode de stockage des définitions, le langage descriptif RDF (Resource Definition Framework) développé par le W3C (l'organisme de standardisation du Web), qui va permettre de définir les structures (soit la définition du tag XML), et cela au moyen de propositions ou « triplets » de type sujet/verbe/complément. Tout document sera défini par les occurrences de ces trois données. Par exemple, une définition du type « le fils de la soeur d'un individu est son neveu » sera indispensable pour rechercher quelqu'un dans un arbre généalogique. Le XML est le support qui organise le document. À chaque balise XML utilisée dans une page Web HTML, correspond un triplet dans RDF.

Par ailleurs, chaque partie du triplet RDF possède un identifiant appelé URI (Uniform Resource Identifier) qui permet à l'agent intelligent de le repérer. Les URL assurent que les concepts ne sont pas juste des mots dans un document, mais qu'ils sont attachés à une définition unique que tout le monde peut trouver sur le Web.
Ainsi, on pourra vraiment travailler en réseaux, en peer to peer, c'est-à-dire d'ordinateur à ordinateur, si les définitions sont partagées par tous.

Premiers développements et usages

Plusieurs programmes de recherches ont été lancés sur le sujet. Ainsi, en France, l'Institut national de recherche en informatique et en automatique (INRIA) a monté le programme WebContent, étalé de 2006 à 2009, dirigé par Serge Abiteboul, en partenariat avec d'autres structures de recherche, et les entreprises EADS et Exalead. Il s'agit de créer une plate-forme pour la gestion de contenus, qui intègre les technologies du Web sémantique qui existent déjà. Le projet développe un ensemble de services Web pour structurer, stocker, analyser et comprendre des données codées en XML. Elle permettra de faire de la veille sur le Web, par exemple sur le risque microbiologique et chimique dans le domaine alimentaire.

Des premiers usages du Web sémantique se distinguent déjà. Cela s'avère particulièrement prometteur dans les domaines verticaux (commerce, voyages, immobilier, emploi...).

Par exemple, dans le domaine du commerce électronique, pour un consommateur qui veut acheter une voiture, un agent intelligent va chercher à sa place toutes les voitures correspondant à ses critères, comparer les prix, vérifier les stocks, les délais de livraison, et d'autres critères, en fouillant dans les documents du Web décrits selon les standards du Web sémantique.

Trulia

Trulia est un moteur de recherche américain spécialisé dans le secteur immobilier, créé par Pete Flint. Il intègre le service de Google Maps pour localiser les biens listés. Le principe : en entrant un code postal ou un nom de ville, vous avez une liste de maisons et une Google Map montrant leur localisation. En fait, c'est un agrégateur de propriétés immobilières listées sur d'autres sites. Mais il ne se contente pas de les lister, il dresse une fiche complète de la propriété dans un format standardisé, et offre plusieurs propriétés comparables affichées en photos ou sur une carte de Google Maps.

Vous pouvez filtrer les résultats par prix, nombre de pièces, superficie... Les résultats vous affichent aussi le prix moyen de vente des maisons du même quartier, les dernières ayant été vendues, les écoles les plus proches...

En cliquant sur le lien sur une maison, vous accédez à la page détaillée, avec plus d'informations sur la maison.

Les premiers moteurs de recherche en langage naturel

Le Web sémantique change déjà le visage des moteurs de recherche. Ainsi, Yahoo ! a annoncé en avril 2008 qu'il prendra désormais en compte certains standards du Web sémantique comme RDF. Il pourra donc présenter dans ses résultats de recherche des éléments inédits, car il pourra alors comprendre le sens du contenu indexé, et surtout interpréter les relations entre différents contenus.
Quelques start-ups se sont déjà lancées sur le créneau du Web sémantique.

À savoir

Si vous voulez les tester, la plupart de ces services sont encore à l'étude, ou en version bêta : donc vous devrez demander une invitation en remplissant un formulaire pour y accéder, et avoir le statut privilégié de bêta-testeur... Et souvent, une fois votre requête enregistrée, vous êtes sur liste d'attente !

Le moteur de Evi

Lancé en novembre 2007 par William Tunstall-Pedoe, le moteur de recherche sémantique de Evi, société de Cambridge (Grande-Bretagne), vise à donner des réponses pertinentes à des recherches en langage naturel. Evi transforme les recherches de langage naturel en recherches en rapport avec la base de données, mais sans indexer le Web : il récupère des données des bases de données structurées. En effet, il vise à élaborer sa propre base de données, et importe des données de sources telles que Wikipédia.


D'après les tests effectués par certains internautes, en entrant par exemple la question « Who is Martin Luther King ? », le moteur de recherche propose une petite fiche sur le personnage, mais également sur son père qui portait le même nom, et plusieurs pages de résultats, dont un lien Wikipédia. Lorsqu'une information n'est pas disponible, il vous est proposé de la renseigner vous-même si vous la connaissez. En fait, les résultats sont en partie « human powered ».

Outre donc l'aspect recherche, vous trouverez une partie centrée sur les contributeurs, sous forme de tableau, qui répertorie le nombre de faits ajoutés, leur fiabilité... Le tout complété par un forum, un blog ainsi qu'un wiki, un onglet sur l'activité récente, et les derniers ajouts à la base.

Powerset

Créée par Barney Pell, la start-up a noué début 2007 un accord de licences et de brevets avec Xerox, reprenant ainsi à son profit trente années de recherches du Palo Alto Research Center (PARC) de Xerox. Le moteur de Powerset bénéficie ainsi de la technologie de langage naturel que le PARC développe depuis 2005, qui lui permet d'accepter les requêtes des internautes dans leur langage quotidien. Il a été racheté par Microsoft en 2008 (source Wikipedia.

En fait, Powerset extrait et indexe des concepts, des liens, et significations, plutôt que des mots. Il s'est d'abord concentré sur les 3 millions de pages de Wikipédia.

Là encore, seuls les bêta-testeurs pouvaient accéder au service en avril 2008. Vous devez donc obligatoirement créer un profil lors de votre inscription. Une fois que votre profil est créé, chacune de vos actions au sein du bêta-test sera notifiée.

Wikidata

Wikidata est un projet de base de données qui est édité de manière collaborative. Il a pour but d'aider à la mise à jour des données de Wikipédia. Le projet, lancé par Wikimedia Deutschland a été présenté lors de la Semantic Tech & Business Conference de février 2012. Le site a été officiellement ouvert aux le 31 octobre 2012.


Les données de Wikidata sont sous licence Creative Commons Zéro, le but de ce projet est de fournir à tous les utilisateurs une source de données exactes et réutilisables, et pouvant aussi se répercuter sur Wikipedia.



D'autres projets, comme Brainboost explorent eux aussi la recherche en langage naturel, sans oublier AskJeeves, Gimpsy, SemantiNet...

Texte original de la fiche pratique extrait de :«Tout sur le web 2.0» (Capucine Cousin, Collection CommentCaMarche.net, Dunod, 2008)

A voir également :

Ce document intitulé «  Comprendre le web sémantique  » issu de CommentCaMarche (www.commentcamarche.net) est mis à disposition sous les termes de la licence Creative Commons. Vous pouvez copier, modifier des copies de cette page, dans les conditions fixées par la licence, tant que cette note apparaît clairement.