Bard, Gemini, PaLM 2… Google part à la conquête de l'IA
Bien décidé à ne pas se laisser distancer par Microsoft et OpenAI, Google s'engage à fond dans l'intelligence artificielle en dopant tous ses produits et services à l'IA. Retour sur les annonces de la conférence I/O 2023 qui présagent une véritable révolution.
Depuis plusieurs mois, Microsoft multiplie des intégrations pour le moins impressionnantes de son IA dans tous ses produits et ses services, notamment avec Bing Chat. Avec son partenariat avec OpenAI, il représente une sérieuse menace pour l’hégémonie de Google dans le secteur. Autant dire que, dans cette course à l'IA, la firme de Mountain View était attendue au tournant lors de sa conférence Google I/O, qui s'est tenue le 10 mai au soir (voir notre article). L'entreprise a décidé de sortir le grand jeu en intégrant de l'intelligence artificielle dans tous ses services. C'est bien simple, les deux tiers de l'événement étaient consacrés à ses avancées dans le domaine, avec des utilisations concrètes que l'on devrait pouvoir tester dans les prochains mois.
Sundar Pichai, le CEO de Google, a présenté d’innombrables fonctions d'IA génératives qui allaient prochainement démarquer dans ses produits. Google Search, Gmail, Google Docs, Sheets et Slides, Google Photos et même Android 14... Tout le monde y a droit ! À l'origine de cette avancée : PaLM 2, le nouveau modèle de langage de la firme destiné à concurrencer GPT-4.
PaLM 2 et Gemini : de nouveaux modèles de langage plus puissants
PaLM 2 est le nouveau modèle de langage reposant sur du machine learning développé par Google. Il vient tout juste de terminer son entrainement, qui a été réalisé dans plus de 100 langues, ce qui lui a permis de peaufiner ses compétences de rédaction. Il a également été entrainé sur un important corpus scientifique et mathématique afin d'améliorer ses capacités de raisonnement et de logique. En outre, il est plus doué en code à la suite d'un entrainement sur 20 langages de programmation – aussi, si un utilisateur lui demande de déboguer plusieurs lignes de code, il va pouvoir expliquer l'origine du code et lui fournir les corrections. Google le présente comme l'équivalent de GPT-4, le modèle de langage d'OpenAI qu'utilise Bing Chat. La nouvelle version de Bard repose d'ailleurs sur PaLM 2, le modèle de langage étant déjà intégré dans 25 services de la firme.
PaLM 2 désigne plutôt une famille de modèles de langage puisqu'il se décline en plusieurs variantes : Gecko, Otter (Loutre), Bison et Unicorn (Licorne). Gecko est un modèle plus léger destiné aux smartphones et qui offre des résultats plus rapides, y compris hors ligne. Cette approche permet à Google de faciliter le déploiement du modèle de langage. Ce dernier a également été affiné sur la base de données spécifiques à un domaine afin d'accomplir certaines tâches dans des domaines bien précis. Sec-PaLM 2 est une version entrainée sur des données de sécurité qui peut détecter les scripts malicieux et les menaces. Quant à Med-PaLM 2, il s'agit d'une version avec des données de santé qui, selon Google, peut répondre à des questions similaires à celles de l'examen d'aptitude médicale américain à un niveau "expert" – il peut par exemple interpréter la radiographie d'un bras..
Mais pas question pour Google de se reposer sur ses lauriers ! L'entreprise travaille déjà à entrainer son successeur, Gemini. Il contient plusieurs milliards de paramètres et utilise des milliers de puces TPU pour l'entrainement. La firme de Mountain View le décrit comme multimodal, c'est-à-dire capable de traiter plusieurs sources de données, comme du texte, de l'audio ou des images. Il sera lui aussi décliné en plusieurs tailles.
Bard : l'IA rattrape son retard sur Bing Chat
Jusqu'ici, Bard n'avait pas vraiment réussi à convaincre. La faute à sa première présentation ratée, l'IA ayant commis une erreur en plein milieu de la démonstration (voir notre article). Finalement, il apparaissait bien en dessous de ce que proposent actuellement ChatGPT et Bing Chat. Il semblerait toutefois que les choses se soient bien améliorées depuis.
Animé par PaLM 2, le chatbot bénéficie donc de meilleures compétences de raisonnement, de calcul et de codage. Pour contrer Microsoft Bing, Google va intégrer Bard à son moteur de recherche via un mode "conversation". Par le biais d'une boîte de dialogue prévue à cet efet, l'IA peut répondre à la requête de l'internaute. Plutôt que de parcourir les résultats, celui-ci obtiendra un résumé taillé sur mesure pour répondre à sa question. De plus, le robot conversationnel garde en tête le contexte de la discussion. Plus il y a de détails dans la demande, plus la réponse sera précise et complète.
Bard se distingue par son approche multimodale. En effet, l'IA intègre les autres services de Google, comme Maps, Lens, Sheets ou Slides. Grâce à Lens, son programme de reconnaissance d'image, elle sera capable d'analyser et de comprendre les images, qui peuvent être utilisées au sein d'une requête. De même, elle est capable d'insérer des images dans ses réponses. Par exemple, si on cherche des informations sur une destination, elle nous montrera des photos des lieux les plus populaires. Grâce à Google Maps, elle peut également afficher des cartes, des trajets et des points d'intérêts. Si on lui demande de générer un tableau de données ou d'informations, on peut ensuite l'exporter dans Sheets. Idem pour d'autres productions, qui peuvent être transférées instantanément vers Docs, Slides et Gmail. Google a par ailleurs développé les capacités de codage de Bard. Non seulement il peut générer du code, mais il peut aussi en expliquer des extraits et aider à le déboguer.
Autre nouveauté : Bard intègre des services tiers comme Wolfram Alpha, Kayak, OpenTable, Instacart, ZipRecruiter et Khan Academy – un peu comme les plug-in de ChatGPT. De plus, son association avec Adobe lui permet de générer des images via Firefly, l'IA générative de l'entreprise, directement depuis son interface. Il est ensuite possible de les modifier à l'aide d'Express, le logiciel de retouche d'Adobe. Un bon moyen de rattraper son retard sur Bing Image Creator (voir notre article). La liste d'attente pour accéder au chatbot a été retirée et celui-ci est désormais disponible en anglais, japonais et coréen dans 180 pays et territoires – mais pas en France, où il faut passer par un VPN pour le tester. Google prévoit d'intégrer pas moins de 40 langues dans un futur proche.
Google I/O : de l'IA dans tous les services
Google cherche à intégrer l'IA dans tout son écosystème. Aussi, Bard rejoindra bientôt Google Search. Lorsqu'un utilisateur effectuera une recherche, un cadre sur fond vert ou bleu apparaîtra sous la barre de recherche avec une réponse complète de la requête générée par l'IA. Pour obtenir des informations supplémentaires, des liens vers des sites Web pertinents seront affichés sur la droite, avec des suggestions Google Shopping si besoin est.
L'IA rejoindra également Gmail afin de nous aider à rédiger entièrement nos mails avec le bouton "Help me write" (aide-moi à écrire en français). Il suffira de cliquer dessus et de renseigner l'idée générale du texte pour qu'elle génère l'intégralité de l'e-mail, en prenant bien en compte le contexte du ou des mails précédents . Bien évidemment, il sera toujours possible de modifier le texte par la suite pour l'adapter à notre convenance. Lors de la démonstration, Help Me Write a généré automatiquement une demande de remboursement de billet d'avion, en réponse à un prompt de quelques mots seulement.
Google va également implémenter des outils d'IA générative dans ses produits bureautiques Docs, Sheets et Slides, en réponse au Copilot de Microsoft (voir notre article). Ainsi, on pourra trouver un module baptisé Sidekick à droite de l'interface, qui permettra de générer du texte, des tableaux, des diapositives, etc. Avec la fonction "Help me Write" dans Docs, il suffira de soumettre une demande pour qu'elle génère un texte approprié, comme une offre d'emploi. L'outil "Help me organize" dans Sheets permettra quant à lui de classer des bases de données automatiquement. Ainsi, il suffira d'expliquer en quelques lignes ce que l'on souhaite pour générer un tableau adapté à nos besoins. Enfin, la fonction "Help me visualize" dans Slides permettra à l'IA de générer des images et de créer le texte pour chaque diapositive.
Google Photos, de son côté, se dote de nouveaux outils. Après la gomme magique qui permet de supprimer en quelques secondes un élément indésirable d'une image, nous allons pouvoir profiter du Magic Editor. Cet outil permet de déplacer un sujet dans l'image en quelques clics. À charge pour l'IA de recréer les pixels manquants et de corriger la luminosité pour que l'illusion soit parfaite. Par exemple, il est possible de déplacer le sujet au premier plan – pratique pour tenir la tour de Pise, malgré un mauvais jugement de perspective. Il peut également compléter une photo mal cadrée en inventant les éléments manquants.
Même Android 14 y a le droit ! Dans Google Messages, la fonction Magic permettra à l'IA d'écrire un message dans différents styles (Enthousiaste, Calme, Shakespeare, etc.). Il sera également possible de personnaliser l'écran verrouillé et de créer ses propres fonds d'écran avec des effets de perspectives, à partir d'emojis, de photos ou de prompts. Une fonction qui sera lancée dès le mois prochain sur les appareils Google Pixel.