Bing Visual Search : l'IA de Microsoft gère la reconnaissance d'image

Microsoft continue d'enrichir Bing Chat, qui prend désormais en charge la recherche multimodale. Grâce à la fonction Visual Search, l'IA est capable d'analyser les images au sein des prompts. De quoi concurrencer Bard et Google Lens ?

Bing Chat a permis à Microsoft de relancer l'intérêt pour son moteur de recherche, qui avait vu sa popularité exploser lors de l'intégration du chatbot, au point de faire de l'ombre à l'indétrônable Google. Mais l'effet de mode semble s'être un peu dissipé avec une forte baisse de fréquentation du côté de l'IA d'OpenAI et du moteur de recherche de Microsoft. D'après les chiffres communiqués par le journaliste de la CNBC Carl Quintanilla, Bing a obtenu durant le premier trimestre 2023 un nombre de visiteurs aussi important que Google, battant même le moteur de recherche de celui-ci au mois de mars. Depuis, ses chiffres de connexion n'ont cessé de reculer, alors que ceux de la firme de Mountain View n'ont pas bougé d'un poil.

Microsoft n'abandonne pas pour autant et ne cesse de rajouter de nouvelles fonctions et améliorations à son IA. La dernière en date se nomme Visual Search et vient concurrencer Google Lens et sa recherche multimodale. Comme son nom l'indique, elle permet à l'utilisateur d'intégrer des images à ses prompts afin que l'IA les analyse et réponde à ses questions. Après une phase de test visiblement concluante, ce nouvel outil est accessible à tous, dans la version bureau et dans l'application Bing.

Bing Visual Search : l'IA se dote de la recherche multimodale

Le chatbot de Microsoft intègre désormais la recherche visuelle multimodale grâce à GPT-4. "Visual Search permet à quiconque de télécharger des images et de rechercher sur le Web des contenus en lien. Prenez une photo, ou utilisez-en une que vous avez trouvée ailleurs, et demandez à Bing de vous en parler. Bing peut comprendre le contexte d'une image, l'interpréter et répondre à des questions à son sujet", explique Microsoft sur son blog. Dans une vidéo de démonstration, on soumet à Bing Chat un croquis approximatif d'une interface utilisateur dessinée assez schématiquement à la main. On demande ensuite au chatbot de fournir le code HTLM et le CSS de l'interface dessinée. Quelques secondes plus tard, il génère des dizaines de lignes de code qui permettent de générer un programme HTLM fonctionnel dont le design se rapproche du modèle.

Ce n'est là qu'une des utilisations possibles de Visual Search. Dans un autre exemple, on envoie au chatbot une photo de plusieurs adaptateurs secteur accompagnée du prompt "lequel dois-je emporter au Royaume-Uni ?" On peut également s'imaginer demander à Bing Chat une recette à partir d'une photo des ingrédients que l'on a sous la main, ou encore obtenir des conseils pour réparer un appareil endommagé. Toujours est-il que Microsoft vient de couper l'herbe sous le pied de Google. Celui-ci vient tout juste d'ajouter à Bard une approche multimodale, lui permettant lui aussi de comprendre les prompts incluant du texte et une image grâce à Google Lens – cette fonction est uniquement en anglais pour le moment (voir notre article). De son côté, la firme de Redmond ne perd pas de temps et vient de dévoiler Bing Chat Enterprise ainsi que le prix de Copilot dans Microsoft 365.