Avec ChatGPT-4o, OpenAI présente le futur de l'IA… et de l'informatique
OpenAI vient de présenter ChatGPT-4o, son nouveau modèle IA, doté d'impressionnantes capacités d'interaction mêlant texte, voix et images avec une réactivité époustouflante. Une technologie bluffante qui pourrait servir de base au futur Siri d'Apple.
Lors d'un événement spécial retransmis en ligne le 13 mai 2024, OpenAI, créateur du célèbre ChatGPT, a présenté une évolution majeure de son modèle de langage phare baptisé ChatGPT 4o, à prononcer « quatre oh ». Le « o » signifie omni, car ce nouveau ChatGPT est par défaut multi-modal, c'est-à-dire que l'on peut s'adresser à lui au clavier, à la voix ou en lui présentant des photos ou des vidéos… voire tout ça à la fois. Plus fort encore, ce nouveau modèle sera accessible gratuitement en ligne. Cette date du 13 mai ne doit rien au hasard : c'était juste un jour avant les annonces de Google pendant sa conférence Google I/O. Et l'IA sera bien sûr au centre de toutes les attentions et de toutes les démonstrations.
« Il est très important pour nous d'avoir un produit que nous pouvons rendre véritablement disponible et largement accessible à tous », a déclaré Mira Murati, la Directrice opérationnelle (CTO) d'OpenAI, au début de de la conférence. « Et nous essayons toujours de trouver des moyens de réduire les frictions, afin que tout le monde puisse utiliser ChatGPT depuis n'importe où ».
ChatGPT-4o : un nouveau ChatGPT gratuit pour tous
L'usage gratuit sera toutefois limité notamment dans le nombre d'échanges (textuels, vocaux ou visuels) que l'on pourra échanger quotidiennement avec ChatGPT, limitation dont les utilisateurs payants d'OpenAI ne souffriront pas naturellement. Les abonnés à ChatGPT Plus (20 dollars par mois), seront aussi les premiers à pouvoir installer la version pour ordinateur de l'application ChatGPT, qui n'était jusque là disponible que sur smartphone. Surprise, cette appli n'est pour l'instant disponible que sur Mac, une version Windows étant prévue pour plus tard dans l'année. Ce ChatGPT pour macOS présente une interface utilisateur semblable à celle de Spotlight, la fonction de recherche intégrée aux Mac depuis de nombreuses années. On pourra d'ailleurs accéder à ChatGPT par un simple raccourci clavier (Option + Espace), très proche de celui de Spotlight (Commande + Espace). Cette application pour Mac intègre toutes les nouvelles fonctions annoncées : les réponses multimodales, l'analyse de données et la création de graphiques, les questions posées par photo ou vidéo, l'analyse de fichiers (pour obtenir un résumé, une réécriture ou une simple correction par exemple), l'accès au GPT Store pour télécharger des GPTs (prononcez DjiPiTise) ces modules dédiés à des sujets spécifiques. Via l'appli, ChatGPT gardera aussi vos conversations en mémoire pour pouvoir s'aider d'un contexte qui vous est propre dans ses réponses suivantes.
ChatGPT-4o : une IA multimodale
Mais la star du show a été bien sûr l'introduction de GPT-4o, le nouveau grand modèle de langage large (LLM pour Large Language Model). Selon OpenAI, GPT-4o offre le même niveau "d'intelligence" que GPT-4, tout en étant multimodal (texte, audio et vision) en permanence. Et le tout avec une rapidité de réponse époustouflante.
« Jusqu'à présent, nous nous sommes essentiellement concentrés sur l'amélioration de l'intelligence de ces modèles, et ils sont devenus plutôt bons », a expliqué Mira Murati. « Mais c'est la première fois que nous faisons un tel progrès en termes de facilité d'utilisation. C'est d'une importance capitale car cela touche à la façon dont nous envisageons l'avenir de notre interaction avec les machines. Et nous sommes persuadés que GPT-4o change vraiment le paradigme vers l'avenir de la collaboration. L'interaction devient naturelle et bien plus simple ».
GPT-4o peut traiter en même temps n'importe quelle combinaison de texte, d'audio et d'image, et générer des réponses tout aussi multi-modales. L'objectif annoncé est de permettre une communication en temps réel avec la machine et il faut bien avouer que les démonstrations réalisées en " live " pendant la conférence étaient particulièrement impressionnantes. Selon OpenAI, ChatGPT-4o est capable de répondre en moyenne en 320 millisecondes, le délai de réponse audio pouvant même baisser jusqu'à 232 millisecondes. Un temps de réponse similaire à celui d'une conversation naturelle entre deux humains.
Du point de vue du traitement linguistique, les performances GPT-4o peuvent égaler celles de GPT-4 Turbo en anglais et dans la création ou l'analyse de code logiciel. Et il a été significativement amélioré pour toutes les autres langues, autant en compréhension qu'en rapidité. Pour simplifier, OpenAI a ainsi indiqué que ChatGPT-4o était deux fois plus rapide que ChatGPT-4 tout en coûtant deux fois moins chers pour ceux qui y accèdent via l'API, c'est-à-dire l'accès au modèle en mode « paiement à la consommation ».
ChatGPT-4o : des démonstrations bluffantes
Pour vraiment se rendre compte compte des progrès fulgurants réalisés par OpenAI notamment en termes de rapidité, rien ne vaut de regarder en différé la conférence de présentation, les démos commencent à partir de la neuvième minutes. Dans l'interface de Youtube, n'oubliez pas d'activer le sous-titrage automatique avec traduction en français, réalisée par l'IA, naturellement…
En plus de la conférence globale, OpenAI a également mis en ligne toute une série de vidéos de démonstration des nouvelles capacités de ChatGPT-4o (cliquez ici pour accéder à une liste de lecture complète). Nous en montrons quelques exemples à couper le souffle ci-dessous.
Dans un exemple assez traditionnel de traduction en temps réel, on voit par exemple à quel point ChatGPT-4o rend la conversation plus naturelle grâce à son extrême réactivité.
Ici, on voit ChatGPT-4o jouer le rôle d'arbitre entre deux personnes jouant à pierre papier ciseaux. C'est même ChatGPT-4o qui propose le jeu lorsque les deux humains lui demandent à quoi ils pourraient bien jouer. Un iPhone est posé contre une tasse de café et regarde les deux joueurs via sa caméra frontale. De cette façon ChatGPT-4o est capable de voir ce qu'ont choisi les deux joueurs pour leur dire qui a gagné.
Un des points communs de toutes ces démonstrations est l'incroyable qualité de la voix synthétique de ChatGPT-4o. Même si on entend encore de ci de là des inflexions légèrement robotiques, la capacité de ChatGPT-4o de moduler ses intonations pour faire ressentir une émotion spécifique ou accentuer un point en particulier est proprement stupéfiante. Et la rapidité d'interaction est également grandement améliorée par une autre nouveauté de ChatGPT-4o : on peut l'interrompre n'importe quand, sans avoir donc à attendre la fin de sa réponse vocale. On le voit notamment dans cette démo pendant laquelle un des développeurs demande à ChatGPT-4o de lui raconter une histoire et en lui demandant de changer de ton, du plus neutre au plus dramatique. Et même en chantant !
GPT-4o est en cours de déploiement pour les utilisateurs de ChatGPT Plus et Team maintenant, et il sera bientôt disponible pour les utilisateurs Enterprise. Il est également en cours de déploiement pour les utilisateurs gratuit de ChatGPT. Il suffit de se rendre sur ChatGPT.com pour l'essayer, sans même avoir besoin de créer un compte.
ChatGPT-4o : une version pour Mac d'abord
Au-delà de l'incroyable démonstration technologique, les annonces d'OpenAI montrent l'évolution inéluctable de nos interactions avec nos machines, quelles que soient leurs formes (ordinateurs, smartphone, lunettes, broche, pendentif, etc.). Une évolution prédite et désirée tout à la fois par quasiment toutes les œuvres de science-fiction depuis des décennies : de Star Trek à Iron Man, en passant par les robots d'Asimov, c'est à la voix, via un dialogue naturel que l'on s'adresse à la machine pour lui demander de remplir n'importe quelle tâche. Dans Star Trek IV Retour sur Terre par exemple, alors que l'équipage du vaisseau Enterprise fait un voyage dans le temps pour revenir en 1986 (date de sortie du film), on voit l'ingénieur Scotty s'adresser vocalement à un Mac de l'époque. Et quand ça ne marche pas, il se saisit de la souris avec un air entendu pour s'adresser à elle comme dans un micro ! Jusqu'à finalement se résoudre à taper au clavier.
Cela fait sourire bien sûr, mais l'exemple du Mac n'est pas anodin, car les nouvelles fonctions de ChatGPT-4o pourraient justement bientôt s'intégrer aux Mac d'aujourd'hui justement. Il se murmure ainsi de plus en plus fort qu'Apple et OpenAi auraient signé un accord pour intégrer tout ou partie de GPT dans les prochaines versions de macOS, iOS et iPadOS. Et comme par hasard, la version pour ordinateur de ChatGPT annoncée par OpenAI est d'abord réservée aux Mac ! C'est presque un pied de nez à Microsoft qui a pourtant investi plus de 10 milliards de dollars dans OpenAI. Sans compter que toutes les fonctions de Copilot, le programme d'IA de Microsoft, est entièrement basé sur ChatGPT, et que la firme de Seattle travaille d'arrache-pied pour l'intégrer aussi bien à Windows qu'à sa suite bureautique Office.
ChatGPT-4o ; bientôt dans le nouveau Siri d'Apple ?
De là à imaginer une version (très) améliorée de Siri il n'y a qu'un pas que l'on franchit d'autant plus aisément que l'assistant vocal aurait justement bien besoin de progresser. Et on sait déjà que la prochaine conférence des développeurs d'Apple, la WWDC qui débutera le 10 juin 2024, aura l'IA comme thème principal. Outre les progrès en conversation, on voit aussi facilement tout l'intérêt d'une intégration de l'Intelligence Artificielle directement au sein du système d'exploitation. Imaginez que vous puissiez demander à votre Mac : « trouve-moi le fichier que m'a envoyé Éric, à moins que ce soit Jules le jour où on parlait de l'achat de la tempête de grêle, et qui parle de notre prochaine offre commerciale ». Vous seriez bien en peine de poser aujourd'hui cette question à Spotlight, l'outil de recherche actuel des Mac. Bien sûr, pour que cela fonctionne, cela implique de donner un accès total ou presque à vos données à l'outil d'IA. Peut-être hésiteriez-vous à le faire avec OpenAI. Mais peut-être aussi que cela sera plus facile de donner un tel accès à une IA signée Apple, dont l'un des mantras est justement la protection de nos vies et données privées. Vivement le 10 juin qu'on en sache plus !