Gemini 2.0 : tout savoir sur le nouveau modèle d'IA générative de Google

Gemini 2.0 : tout savoir sur le nouveau modèle d'IA générative de Google

Google dévoile Gemini 2.0, son modèle d'IA de seconde génération. Capable de générer des images et de l'audio, il promet de bien meilleures performances et, surtout, il annonce l'arrivée de véritables agents IA.

Comme toutes les autres entreprises dans la course à l'intelligence artificielle, Google s'efforce d'intégrer l'intelligence artificielle dans pratiquement tous ses produits. C'est une véritable course qu'elle se livre aux côtés d'OpenAI, de Microsoft et de nombreuses autres entreprises. Ce mercredi 11 décembre 2024, la firme de Mountain View vient de franchir une nouvelle étape en présentant Gemini 2.0, son modèle d'IA générative le plus évolué à ce jour. dix mois seulement après le lancement de la version 1.5.

Il se révèle meilleur que son prédécesseur dans de nombreux domaines, que ce soit au niveau des performances et de la latence, pour comprendre le langage, générer du texte ou effectuer des tâches (traduction, résumés, etc.). Mais, surtout, son architecture supporte nativement le traitement multimodal, qui pose les bases de la prochaine grande nouveauté de l'IA : les agents. Pour Google, Gemini 2 doit être considéré comme un tournant dans le domaine de l'IA.

Gemini 2.0 : une IA multimodale beaucoup plus puissante

L'une des grandes différences avec les modèles d'IA précédents de Google est que Gemini 2 est capable de "comprendre les informations à travers le texte, la vidéo, les images, l'audio et le code" et de générer ce type de contenu nativement. La première version de Gemini faisait appel à des modèles externes, comme Imagen pour la création d'images, afin de répondre aux requêtes des utilisateurs. Il s'agissait donc d'un hub de modèles différents plutôt que d'un modèle en lui-même. 

Plusieurs sous-modèles seront mis à disposition au fur et à mesure, chacun répondant à des besoins précis. Pour l'instant, seule la version 2.0 Flash, première déclinaison de cette nouvelle génération, est disponible sous forme expérimentale. Elle apporte d'importantes améliorations en termes de performances. En effet, elle s'annonce deux fois plus rapide que le modèle Pro 1.5, tout en maintenant un niveau de qualité équivalent. Cette version intègre désormais nativement la génération d'images et d'audio, en plus du texte, ce qui en fait un modèle réellement multimodal, non seulement pour les entrées, mais aussi pour les sorties – ses réponses peuvent donc contenir à la fois du texte, de l'image et de l'audio multilingue de synthèse vocale. 

Gemini 2.0 : des agents IA en développement

Ces améliorations rendent possible l'amélioration des agents IA – également appelés intelligence artificielle agentique –, c'est-à-dire des composantes du modèle de langage qui ont été spécifiquement entraînées ou configurées pour exceller dans un type de tâche particulier. C'est le cas par exemple du Projet Astra, présenté en mai dernier lors de Google I/O 2024. À l'aide d'un smartphone pointant sa caméra sur divers objets en vidéo, l'IA est tout simplement en mesure d'analyser l'environnement, de résoudre des problème, d'interagir en temps réel avec l'utilisateur, etc. Gemini 2.0 représente une énorme amélioration pour le Projet Astra, même s'il est toujours en phase de prototype. Il permettra notamment de converser dans plusieurs langues et dans des langues mixtes, avec une meilleure compréhension des accents et des mots rares, mais aussi d'utiliser Google Search, Lens et Maps afin de nous assister plus efficacement dans notre vie quotidienne, de se souvenir de certaines choses, et de comprendre le langage avec une latence presque similaire à celle d'une conversation 100 % humaine. 

Mais ce n'est pas le seul agent sur lequel travaille Google. L'entreprise a également dévoilé Project Mariner, un prototype d'une extension pour Chrome, là aussi construit avec Gemini 2.0. Son but est d'explorer "l'avenir de l'interaction homme-agent, en commençant par votre navigateur". Project Mariner est "capable de comprendre et de raisonner sur les informations affichées à l'écran par votre navigateur, y compris les pixels et les éléments web tels que le texte, le code, les images et les formulaires, puis d'utiliser ces informations via une extension Chrome expérimentale pour effectuer des tâches à votre place", explique Google. Mais il comporte encore de nombreux défauts à corriger. 

Enfin, il y a Jules, un agent conçu pour aider les développeurs à trouver et à corriger le code défectueux, en s'intégrant directement dans un flux de travail GitHub. Il peut détecter des erreurs, analyser la logique du code, proposer des optimisations architecturales et suggérer des améliorations en tenant compte des bonnes pratiques du secteur. Des projets d'agents sont par ailleurs en cours afin d'utiliser l'IA dans le cadre du jeu vidéo.

Gemini 2.0 : comment tester la nouvelle IA ?

Google adopte une approche prudente et méthodique pour le déploiement de Gemini 2.0. Vous pouvez tester Flash 2.0 dès à présent dans l'application Gemini sur appareil mobile ou via l'interface Web de l'IA, à partir du menu déroulant qui regroupe tous les modèles disponibles, en sélectionnant Flash 2.0 Experimental.

Les développeurs tiers peuvent également y accéder via les plateformes AI Studio et Vertex AI, mais certaines fonctions avancées comme la génération d'images et d'audio sont pour le moment réservées aux partenaires privilégiés. Attention, il s'agit d'un accès anticipé, la sortie officielle est prévue pour janvier 2025. Enfin, Google va commencer à intégrer Gemini 2.0 à ses différents produits de son écosystème, comme Gmail et Drive, au début de l'année prochaine.

Autour du même sujet