Claude 3 : l'iA fait un bond de géant, ChatGPT peut aller se rhabiller !

Claude 3 : l'iA fait un bond de géant, ChatGPT peut aller se rhabiller !

Claude, l'IA qui se veut "honnête, utile et inoffensive", a droit à de nombreuses améliorations avec son nouveau grand modèle de langage décliné en trois versions. De quoi repousser les limites de l'IA générative, loin devant ChatGPT.

La course à l'intelligence artificielle continue de plus belle ! Si OpenAI (ChatGPT), Microsoft (Copilot) et Google (Gemini) pensaient avoir une longueur d'avance, d'autres entreprises plus petites qui travaillent également au développement de grands modèles de langage (LLM) semblent petit à petit tirer leur épingle du jeu. C'est le cas de la start-up française Mistral AI, qui a récemment dévoilé Le Chat, son chatbot alimenté par Mistral Large, qui se présente comme un sérieux concurrent de ChatGPT (voir notre article). La start-up américaine Anthropic, fondée par d'anciens collaborateurs d'OpenAI, ne compte également pas se laisser faire et vient de présenter, dans un billet de blog, son nouveau grand modèle de langage, Claude 3 ! L'IA "éthique" prétend dépasser les modèles GPT-4 d'OpenAI et Gemini 1.0 de Google sur de nombreux tests multimodaux. Voilà qui est ambitieux !

Claude 3 : quelles évolutions par rapport à la précédente version ?

Claude 3 est une évolution du modèle de langage Claude et fonctionne sur le même principe que ChatGPT : il suffit de lui soumettre une question via une interface pour que l'IA réponde dans un langage naturel. Anthropic a annoncé trois modèles de langage : Claude 3 Haiku, Claude 3 Sonnet et Claude 3 Opus.

Ils présentent des capacités accrues en matière d'analyse et de prévision, de création de contenu nuancé, de génération de code et de conversation dans des langues autres que l'anglais, comme l'espagnol, le japonais et le français, mais aussi de résolution de problèmes mathématiques, d'aptitude à simuler un raisonnement... Le modèle Opus est le plus avancé de la série, "présentant des niveaux de compréhension et d'aisance quasi-humains sur des tâches complexes, se rapprochant de l'intelligence générale". Rien que ça ! Il obtient d'ailleurs de meilleurs scores que GPT-4 pour bon nombre de critères clés sur les principaux outils de benchmark. Anthropic promet également des résultats quasi instantanés pour des tâches telles que la discussion client en direct, la complétion automatique et l'extraction de données.

Autre nouveauté : les IA deviennent multimodales, ce qui leur permet de traiter une large gamme de formats visuels, y compris des photos, des tableaux, des graphiques et des diagrammes techniques. En revanche, elles ne peuvent pas encore générer d'images.

Claude 3 Opus : le plus puissant des grands modèles de langage

Claude 3 Opus est le modèle le plus performant d'Anthropic, obtenant des résultats impressionnants sur des tâches pourtant complexes. "Il peut répondre à des questions ouvertes et à des scénarios invisibles avec une fluidité remarquable et une compréhension comparable à celle de l'homme. Opus nous montre les limites extrêmes de ce qui est possible avec l'IA générative", explique l'entreprise.

Ainsi, il surpasse ses concurrents sur la plupart des critères d'évaluation courants pour les systèmes d'IA, notamment les connaissances d'expert de premier cycle (MMLU), avec un résultat de 86,8 %, contre 86,4 % pour GPT-4 et 83,7 % pour Gemini 1.0 Ultra, et les mathématiques de base (GSM8K), avec un score de 95 % contre 92 % pour GPT-4 et 94,4 % pour Gemini 1.0 Ultra. L'écart est encore plus large sur certains benchmarks de programmation, comme HumanEval, où Opus a atteint un score de 84,9 %, contre seulement 67 % pour GPT-4 et 74,4 % pour Gemini 1.0 Ultra. Il a aussi légèrement dépassé le modèle d'OpenAI sur plusieurs tests de connaissance générale et de raisonnement.

© Anthropic

Pour comparer les différents modèles d'IA, on utilise une unité de mesure nommée jetons (tokens, en anglais), qui permet de déterminer le niveau d'analyse et de mémorisation. Claude 3 Opus possède une fenêtre contextuelle de 200 000 tokens. Autrement dit, il est possible de lui donner des documents contenant un total d'environ 150 000 mots et de lui poser des questions dessus. Toutefois, Anthropic indique qu'il peut dépasser un million de tokens. C'est à peu près ce que fait Gemini 1.5, et beaucoup plus que GPT-4 et ses 128 000 tokens. De ce fait, il peut être utilisé pour l'automatisation des tâches (planification et exécution d'actions complexes à travers des API et des bases de données, codage interactif), pour la recherche et le développement (examen de la recherche, brainstorming et génération d'hypothèses, découverte de médicaments) et pour la stratégie (analyse avancée des tableaux et graphiques, des tendances financières et du marché, prévisions).

Claude 3 Sonnet et Haiku : des modèles plus abordables

Anthropic a également présenté ses deux autres modèles de Claude 3, à savoir Sonnet et Haiku, qui sont, eux aussi, dotés d'une fenêtre contextuelle de 200 000 tokens. Le premier est décrit comme "l'équilibre idéal entre intelligence et rapidité, en particulier pour les charges de travail d'entreprise". Ses performances sont solides et son coût inférieur à ceux des deux autres modèles. Bref, il dispose d'une grande endurance dans les déploiements d'IA à grande échelle. Ses usages sont variés : traitement de données, ventes, génération de code, contrôle qualité, analyse de texte à partir d'images...

© Anthropic


De son côté, Haiku se présente comme le modèle le plus rapide et le plus compact, avec une réactivité quasi-instantanée. "Il répond aux requêtes et aux demandes simples avec une rapidité inégalée. Les utilisateurs pourront créer des expériences d'IA transparentes qui imitent les interactions humaines", explique Anthropic. Il peut notamment être utilisé pour la modération de contenu (détecter les comportements à risque ou les demandes des clients) et les tâches économiques (logistique optimisée, gestion des stocks, extraction d'informations à partir de données non structurées).

Claude 3 : où peut-on les tester ?

L'originalité de Claude vient du fait qu'il s'agit d'une IA "éthique". Par rapport à Claude 2, Claude Opus, Sonnet et Haiku sont nettement moins susceptibles de refuser de répondre aux commandes textuelles qui frôlent les garde-fous du système. Les modèles Claude 3 montrent ainsi une compréhension plus nuancée des demandes, reconnaissent les préjudices réels et refusent moins souvent de répondre à des invites inoffensives.

© Anthropic

Mais cela va bien plus loin. Alex Albert, prompt engineer chez Anthropic, s'est amusé à piéger le modèle Opus dans le cadre d'un test de "l'aiguille dans la botte de foin". Il s'agit d'insérer une phrase aléatoire (l'aiguille) –évoquant ici des garnitures de pizza – dans un corpus d'informations qui ne traitent pas du tout du même sujet (la botte de foin) – ils portaient ici sur les langages de programmation –, puis de poser une question à laquelle on ne peut répondre qu'en utilisant l'information contenue dans l'aiguille. Non seulement Opus est parvenu à trouver la fameuse "aiguille", mais il a également reconnu que cette dernière avait été insérée afin de le tester sur ses capacités d'attention et qu'elle n'avait aucun rapport avec le reste des documents fournis. "Je soupçonne que ce 'fait' sur la garniture de pizza a peut-être été inséré comme une blague ou pour tester si j'y prêtais attention, car il ne correspond pas du tout aux autres sujets. Les documents ne contiennent aucune autre information sur les garnitures de pizza", a-t-il répondu. Bluffant !

Claude 3 a été développé avant tout pour les utilisateurs professionnels dans la mesure où il est, selon l'entreprise, particulièrement adapté à suivre "des instructions complexes en plusieurs étapes " et " à adhérer aux directives de voix et de réponse de la marque, et à développer des expériences client auxquelles nos utilisateurs peuvent avoir confiance". Les versions Sonnet et Opus sont d'ores et déjà disponibles depuis le chatbot Claude AI et les API d'Anthropic dans159 pays – mais pas en France. Sonnet est accessible pour les utilisateurs utilisant gratuitement Claude, tandis qu'Opus l'est uniquement pour les abonnés Claude Pro. Quant à Haiku, il sera bientôt disponible.

Autour du même sujet