GPT-4 : que promet la nouvelle IA de ChatGPT ?
OpenAI vient de dévoiler GPT-4, la nouvelle version du modèle de langage qui alimente ChatGPT, son célèbre robot conversationnel. Présentée comme plus précise et plus fiable, elle est même capable d'interpréter des images !
Après des mois de rumeurs et de spéculations, OpenAI a officialisé le mardi 14 mars 2023 GPT-4, la toute nouvelle version de son modèle de langage, le "moteur" derrière l'IA révolutionnaire ChatGPT, le robot conversationnel qui a tant fait parler de lui sur Internet depuis sa sortie publique en novembre 2022 – il anime également le générateur d'images DALL-E. L'entreprise a publié cette nouvelle version le mardi 14 mars via une mise à jour qui améliore les capacités de l'IA tout en introduisant des nouveautés assez prometteuses, et les abonnés au programme payant ChatGPT Plus peuvent d'ores et déjà en profiter. "GPT-4 est un grand modèle multimédia, moins doué que les humains dans de nombreux scénarios de la vie réelle, mais aussi performant que les humains dans de nombreux contextes professionnels et académiques", déclare OpenAI dans un communiqué. La start-up promet qu'avec GPT-4, son chatbot va devenir "plus créatif et collaboratif que jamais". Et, surprise, l'IA de Microsoft dans Bing repose déjà dessus ! Alors, d'après les premiers aperçus, la nouvelle version de l'IA conversationnelle est-elle incroyable ? Marque-t-elle une incroyable différence par rapport à son prédécesseur ? Et, surtout, résout-elle les travers de l'intelligence artificielle et les dérives qu'elle entraine ?
GPT-4 : un modèle de langage plus puissant
Pour rappel, GPT –acronyme de Generative Pre-trained Transformer, soit Transformeur génératif pré-entraîné en français approximatif –est un langage génératif reposant sur un modèle de réseau neuronal qui imite le système neuronal humain grâce à des algorithmes. Ce système d'intelligence artificielle est entraîné par apprentissage profond – deep learning, en anglais – en analysant de gigantesques volumes de données – issues d'Internet dans le cas de GPT. C'est cette combinaison qui lui permet de générer du texte en "raisonnant" et en rédigeant à la manière d'un être humain.
GPT-3, la troisième génération de cette technologie, constituait jusqu'ici l'un des modèles de génération de texte d'IA les plus évoluées à ce jour. Les versions précédentes, GPT-1 et GPT-2, comptaient 1,5 milliard de paramètres, paramètres qui définissent le processus d'apprentissage de l'IA et structurent les résultats qu'elle obtient. Le nombre de paramètres d'un modèle d'IA est généralement utilisé comme une mesure de la performance : plus il y a de paramètres, plus le modèle est puissant, fluide et prévisible. GPT-3 a été un véritable bond en avant à ce niveau, puisqu'il est passé à 175 milliards de paramètres. Pour GPT-4 en revanche, OpenAI n'a pas souhaité dévoiler la taille exacte de son nouveau modèle.
GPT-4 : quelles différences avec GPT-3 ?
GPT-4 reprend les bases de GPT-3 et peut donc générer, traduire et résumer des textes, répondre à des questions, servir de chatbot et générer du contenu sur demande. Il apporte une nouveauté prometteuse et de nombreuses améliorations, comme l'explique OpenAI sur son site. Attention toutefois, il ne faut pas s'attendre à un effet "waouh" pour autant. "Dans une conversation informelle, la distinction entre GPT-3.5 et GPT-4 peut être subtile", explique l'entreprise sur son site. De plus, il semblerait que la base de données ne soit toujours pas à jour – elle a l'air de toujours s'arrêter en 2021...
GPT-4 : la prise en compte des images
L'une des nouveautés les plus intéressantes est que le modèle de langage devient "multimodal". En effet, grâce une collaboration avec la start-up Be My Eyes, GPT-4 peut analyser et répondre à des requêtes contenant du texte et des images, là où GPT-3 se limitait aux écrits. "Il peut accepter de manière flexible des entrées qui intercalent des images et du texte de manière arbitraire, un peu comme un document", résume le cofondateur d'OpenAI Greg Brockman à The Guardian. Pour faire simple, l'utilisateur peut soumettre au nouveau modèle une image assortie d'une question. Par exemple, si l'utilisateur entre dans le chatbot un croquis fait à la main détaillant un projet de site Web, GPT-4 produit une réponse détaillée expliquant les étapes à suivre pour réaliser ce site – mais il ne génère toujours que du texte.
Announcing GPT-4, a large multimodal model, with our best-ever results on capabilities and alignment: https://t.co/TwLFssyALF pic.twitter.com/lYWwPjZbSg
— OpenAI (@OpenAI) March 14, 2023
Le New York Times a mené plusieurs essais avec GPT-4. Le journaliste a soumis à l'IA une photo du contenu de son réfrigérateur en lui demandant ce qu'il pouvait cuisiner avec les aliments présents. Elle a été en mesure de lui proposer plusieurs recettes contenant les ingrédients disponibles. Seule une seule des réponses, un wrap, nécessitait un ingrédient qui ne semblait pas y figurer. Dans un autre exemple, une personne malvoyante soumet à l'intelligence artificielle une photo deux chemises de modèle identique, mais de couleurs différentes, et l'IA lui indique laquelle est la rouge. Selon OpenAI, GPT-4 est capable de "générer le même niveau de contexte et de compréhension qu'un être humain", en expliquant le monde qui entoure l'utilisateur, en résumant des pages Web noyées sous les informations ou en répondant à des questions sur ce qu'il "voit" par exemple. Cette option n'est pas disponible pour le moment et continue d'être testée au sein de Be My Eyes, qui utilise GPT-4 pour un produit d'accessibilité visuelle, mais devrait arriver dans quelques semaines.
GPT-4 : une IA plus créative et utile
Selon OpenAI, GPT-4 est "plus créatif et collaboratif" que son prédécesseur, mais aussi que tout autre système d'IA existant. D'abord, le nouveau modèle de langage produit plus rapidement des réponses plus précises, sans crasher à cause du nombre trop important de requêtes simultanées soumises par les utilisateurs (voir notre fiche pratique). De plus, la taille du texte entré comme requête a été revue à la hausse, puisque GPT-4 peut maintenant analyser des textes allant jusqu'à 25 000 mots, contre environ 3 000 mots pour GPT-3.5. On peut donc lui soumettre des textes à analyser plus grands – un roman, une nouvelle, un article scientifique, etc. –, ce qui permet à l'IA de résoudre davantage de problèmes de rédaction ou de synthèse.
OpenAI affirme que "GPT-4 est plus fiable, créatif et capable de gérer des instructions beaucoup plus nuancées que GPT-3.5". Cette version du modèle de langage serait donc meilleure dans les tâches qui requièrent de la créativité ou un raisonnement avancé. Ainsi, lors de la démonstration de Greg Brockeman, le cofondateur de l'entreprise lui a demandé de résumer une section d'un article de blog en utilisant uniquement des mots commençant par "g". L'IA pourrait être utilisée pour des tâches comme une composition musicale, l'écriture de scénario – des livres écrits par ChatGPT dans sa version GPT-3.5 affluent déjà depuis quelques semaines sur le marché de l'édition – et la reproduction du style d'un auteur.
GPT-4 : de meilleurs résultats aux tests
D'après les résultats publiés par OpenAI, GPT-4 a franchi une étape importante en ce qui concerne la précision de ses réponses, en diminuant les erreurs grossières et les raisonnements illogiques que l'on peut rencontrer sur ChatGPT avec GPT-3.5. En effet, la firme a fait passer à son nouveau modèle de langage des tests de biologie, de droit, d'économie ou de littérature. Et GPT-4 surpasse largement son prédécesseur, comme on peut le voir sur le graphique – les résultats sont en bleu pour GPT-3.5 et en vert pour GPT-4.
On note toutefois que, même s'il y a de nettes améliorations, l'IA a toujours du mal avec les examens qui demandent de la créativité, comme les langues et la littérature anglaise. Elle a en revanche réussi l'examen du barreau aux États-Unis avec un score proche des 10 % des meilleurs candidats, là où GPT-3 se situait autour des 10 % les plus faibles. GPT-4 obtient également de très bons résultats dans de nombreuses langues – l'anglais est en quelque sorte sa langue "maternelle", celle utilisée de base –, avec un niveau de précision de 84,1 % en italien, 83,7 % en espagnol, ou encore 83,6 % en français. Ces résultats signifient que les utilisateurs obtiendront des réponses de meilleure qualité.
ChatGPT-4 : un modèle de langage plus sécurisé
OpenAI a longuement travaillé pour rendre GPT-4 plus "sûr" et éviter au maximum ses dérives. Ainsi, il serait 82 % moins susceptible que GPT-3.5 de répondre à des demandes de contenus non autorisés, comme coder un malware par exemple. De même, son exactitude a été revue à la hausse, puisqu'elle serait désormais 40 % plus susceptible que la version précédente d'offrir une réponse factuelle à une demande.
Tous les problèmes ne sont pas résolus pour autant ! En effet, l'IA a toujours tendance à "halluciner", en inventant et en affirmant avec aplomb de fausses informations. C'est pourquoi il rappelle qu'"il convient d'être très prudent lors de l'utilisation des résultats d'un modèle linguistique, en particulier dans les contextes à fort enjeu", ajoutant que "GPT-4 présente des risques similaires à ceux des modèles précédents, tels que la génération de conseils nuisibles, de codes malveillants ou d'informations inexactes".
GPT-4 : comment l'utiliser ?
OpenAi a déjà travaillé avec plusieurs éditeurs pour créer de nouveaux services et applications intégrant GPT-4. C'est le cas de Duolingo, Be My Eyes, Stripe, Morgan Stanley, Khan Academy ou encore du gouvernement d'Islande. Les développeurs peuvent s'inscrire sur liste d'attente pour pouvoir accéder à l'API de l'entreprise. Quant au grand public, il a déjà eu le droit à un aperçu de GPT-4 avec... le chatbot intégré dans Bing par Microsoft ! En effet, lors de l'annonce de son IA Prometheus, la firme n'avait pas précisément indiqué sur quelle version du modèle de langage d'OpenAI elle s'appuyait, expliquant seulement utiliser "les apprentissages et des avancées clés de ChatGPT et GPT-3.5". Les choses sont désormais claires avec le dernier post de Microsoft ! Pour certains chercheurs et informaticiens, c'est d'ailleurs la présence de GPT-4 qui aurait provoqué les dérives de l'IA. Pour rappel, de nombreux utilisateurs ont été capables de briser les garde-fous du moteur de recherche – parfois de façon involontaire –, ce qui avait amené le chatnot à multiplier les erreurs et les humeurs, et même insulter les internautes dans des échanges hallucinants (voir notre article). Trop pressé d'intégrer l'IA à Bing et de couper l'herbe sous le pied de Google, Microsoft aurait bâclé le développement des filtres de sécurité, l'obligeant à faire de nombreux ajustements par la suite, en déployant des mises à jour quotidiennes et en appliquant des limites d'utilisation.
En tout cas, la firme de Redmond compte dévoiler de plus amples informations concernant l'intégration de GPT-4 à ses produits le jeudi 16 mars, via une conférence consacrée à l'IA dans le monde professionnel. Microsoft explique que Bing profitera d'améliorations à mesure qu'OpenAI "apportera des mises à jour à GPT-4 et au-delà", grâce à qui "nous aurons des modèles multimodaux qui offriront des possibilités complètement différentes, par exemple des vidéos" – GPT-3.5 est seulement capable de générer des contenus sous la forme de texte, de tableaux et de code informatique. Aux améliorations d'OpenAI s'ajouteront ses "propres mises à jour basées sur les commentaires de la communauté". En espérant que leur intégration suscite moins de heurts cette fois-ci !