GPT-5.5 : le nouveau modèle d'OpenAI fait mieux que Claude et Gemini

OpenAI vient de lancer GPT-5.5, son modèle IA le plus puissant à ce jour. Conçu pour travailler de façon quasi autonome, il devance ses rivaux sur plusieurs fronts selon les benchmarks spécialisés – mais pas sur tous.

Le tempo s'est encore accéléré. À peine six semaines après GPT-5.4, OpenAI a dévoilé le 23 avril 2026 GPT-5.5, longtemps connu en interne sous le nom de code "Spud". Ce n'est pas une mise à jour incrémentale : les progrès sont particulièrement marqués dans le codage agentique, l'utilisation des ordinateurs, le travail intellectuel et la recherche scientifique exploratoire – des domaines où les avancées reposent sur la capacité à raisonner en tenant compte du contexte et à agir sur la durée. Le modèle ne se contente plus de répondre à des questions : il planifie, s'auto-corrige, et persiste face à l'ambiguïté.

Ce lancement est aussi une réponse stratégique à plusieurs mois difficiles. Malmené en fin d'année par Google et ses modèles Gemini 3, OpenAI a ensuite subi l'incroyable dynamique de son pire ennemi : Anthropic. Entre l'engouement des développeurs pour l'écosystème Claude, le buzz autour du projet de cybersécurité Mythos et une omniprésence médiatique, la start-up fondée par des anciens d'OpenAI est aujourd'hui dans une très bonne forme. Anthropic s'attendait même à gagner plus d'argent que ChatGPT dès cette année. GPT-5.5 est la réponse d'OpenAI à ce décrochage.

GPT-5.5 : des scores qui marquent les esprits – avec des nuances

Sur les tests qui lui sont favorables, GPT-5.5 réalise des performances difficiles à contester. Sur Terminal-Bench 2.0, qui évalue des workflows complexes en ligne de commande nécessitant planification, itération et coordination d'outils, il atteint 82,7 % de précision, contre 69,4 % pour Claude Opus 4.7 et 68,5 % pour Gemini 3.1 Pro. Sur GDPval, qui mesure les performances sur 44 types de tâches professionnelles allant de la comptabilité au droit, GPT-5.5 obtient 84,9 %, contre 80,3 % pour Claude et 67,3 % pour Gemini.

Sur OSWorld-Verified, qui teste la capacité d'un modèle à opérer un vrai ordinateur de façon autonome, GPT-5.5 devance légèrement Claude Opus 4.7 avec 78,7 % contre 78,0 %. Et sur ARC-AGI-2, test de raisonnement abstrait réputé difficile, le bond atteint 11,7 points par rapport à GPT-5.4, avec une avance nette sur ses rivaux.

GPT-5.5 égale la latence par token de GPT-5.4 en conditions réelles, tout en offrant un niveau d'intelligence supérieur – ce qui contredit l'idée reçue selon laquelle un modèle plus puissant est forcément plus lent. Sur des tâches complexes de programmation, le modèle peut aller jusqu'à 40 % plus vite que GPT-5.4.

Mais les chiffres ne racontent pas tout. Sur SWE-Bench Pro, qui évalue les performances sur de vraies corrections de bugs issus de projets GitHub réels, GPT-5.5 affiche 58,6 %, en retrait face aux 64,3 % de Claude Opus 4.7. OpenAI a publié ses benchmarks comparatifs en accusant subtilement Anthropic d'avoir " mémorisé " certaines données de test. Une note de bas de page inhabituelle, qui nuance sans trancher. Par ailleurs, sur MCP Atlas, le benchmark de Scale AI mesurant l'usage d'outils complexes, Claude Opus 4.7 et Gemini 3.1 Pro devancent tous deux GPT-5.5.

Il existe aussi un concurrent qu'OpenAI préfère taire. Face à Claude Mythos Preview, le modèle encore confidentiel d'Anthropic, GPT-5.5 n'écrase pas la concurrence : Mythos devance GPT-5.5 sur six des neuf benchmarks communs, particulièrement sur l'ingénierie logicielle. La conclusion honnête : GPT-5.5 est probablement le meilleur modèle accessible au grand public aujourd'hui, mais pas nécessairement le meilleur modèle tout court.

GPT-5.5 : un modèle qui travaille vraiment – et des prix qui grimpent

Au-delà des chiffres, c'est l'usage concret qui convainc le mieux. Là où les modèles précédents nécessitaient des instructions par étapes ultra-précises, GPT-5.5 est conçu pour comprendre l'ambiguïté des demandes. Il est possible de lui confier une tâche longue et brouillonne : il va planifier de lui-même les étapes, utiliser les outils disponibles, vérifier son travail, et corriger ses erreurs sans solliciter l'utilisateur à chaque blocage. En interne, l'équipe financière d'OpenAI a confié à Codex le traitement de près de 25 000 formulaires fiscaux américains, pour un total dépassant 71 000 pages. Résultat : deux semaines gagnées sur le calendrier habituel.

GPT-5.5 s'attaque aussi à la recherche scientifique de pointe. OpenAI affirme que le modèle a été capable de prouver un fait asymptotique inédit sur les nombres de Ramsey et qu'il excelle sur l'analyse de données en génétique. La preuve mathématique a été vérifiée formellement par le logiciel Lean, utilisé par les chercheurs pour s'assurer de la rigueur absolue d'un raisonnement. Dans Codex, le modèle apporte une génération améliorée de tableurs, présentations et documents, l'utilisation d'un navigateur intégré, la génération d'images, ainsi que des fonctions d'auto-review.

La contrepartie de ces avancées, c'est le prix. Sur l'API, le tarif de GPT-5.5 est le double de celui de GPT-5.4 : 5 dollars par million de tokens en entrée et 30 dollars en sortie, et jusqu'à 180 dollars en sortie pour la version Pro. OpenAI avance que le modèle utilise nettement moins de tokens pour arriver au résultat qu'avec GPT-5.4, ce qui compenserait en partie la hausse – mais c'est OpenAI qui le dit. Pour la première fois depuis longtemps, un nouveau modèle n'est pas disponible pour tout le monde : GPT-5.5 est réservé aux abonnés payants Plus, Pro, Business et Enterprise. Les millions d'utilisateurs gratuits de ChatGPT resteront bloqués sur GPT-5.4.

OpenAI a officiellement classé GPT-5.5 à un niveau de risque élevé en cybersécurité selon son propre cadre d'évaluation interne. Des filtres de détection plus stricts ont été déployés, l'accès élargi réservé aux professionnels vérifiés, et des discussions engagées avec des gouvernements au sujet des infrastructures sensibles. La reconnaissance publique de ces risques par l'entreprise elle-même est inhabituelle – et mérite d'être soulignée, même si OpenAI reste seule juge de l'adéquation de ses propres garde-fous. La remontada est peut-être en marche. Le verdict final appartient aux utilisateurs.