ChatGPT Santé : l'assistant médical rate une urgence vitale sur deux, qui l'eût cru ?

Les chercheurs tirent la sonnette d'alarme ! Une étude révèle que ChatGPT Santé, l'assistant médical d'OpenAI, a tendance à se tromper. Et dans la moitié des cas, il n'envoie pas ses utilisateurs à l'hôpital alors qu'il y a urgence vitale.

Un petit rhume qui traîne depuis quelques jours ? Un étrange bouton sur la poitrine ? Vite, demandons à ChatGPT ! En janvier dernier, OpenAI dévoilait en toute discrétion ChatGPT Santé (Health), un assistant qui centralise les données médicales de l'utilisateur pour lui procurer un suivi personnalisé (voir notre article). Concrètement, l'IA est censée pouvoir vérifier des résultats d'analyse, suivre l'évolution de certains paramètres (taux de cholestérol, etc.), préparer un rendez-vous chez un médecin, comparer différentes options d'assurance santé selon ses besoins ou encore modifier des habitudes de vie (sommeil, régime, entraînement...).

Ce lancement avait de quoi laisser sceptique, quand on sait que les assistants IA ont tendance à halluciner et à être particulièrement intrusifs. Eh bien, cela n'a pas manqué ! Des chercheurs de l'Icahn School of Medicine at Mount Sinai, à New York, viennent de publier une étude dans la revue scientifique Nature Medicine – il s'agit de la première évaluation indépendante de l'outil d'OpenAI. Ils en concluent que ce dernier a tendance à se tromper, y compris pour les cas les plus graves, ce qui le rend dangereux.

ChatGPT Santé : une IA qui rassure un peu trop ses utilisateurs

Les chercheurs ont soumis à ChatGPT Santé 60 scénarios cliniques réalistes e 21 domaines cliniques différents, et ce plusieurs fois et avec des profils de patients différents (profil ethnique, genre, avec une barrière d'accès aux soins plus ou moins élevée). Ils ont ensuite analysé près de mille réponses. Il en ressort que dans plus de la moitié des cas où les médecins jugeaient relever d'une urgence immédiate, l'IA a conseillé de rester à la maison ou de se contenter d'une consultation dans un délai de 24 à 48 heures, au lieu de recommander un passage aux urgences.

Par exemple, dans certains scénarios d'asthme sévère ou d'acidocétose diabétique, ChatGPT a bien identifié des signes d'alerte mais a quand même suggéré de ne pas aller aux urgences. Dans l'une des simulations, la plateforme a envoyé dans 84 % des cas une femme en train d'étouffer à un rendez-vous médical ultérieur, qu'elle n'aurait donc jamais pu honorer. En revanche, l'AVC et le choc anaphylactique étaient correctement repérés.

Autre problème : lorsque le patient minimisait la gravité de ses symptômes, la probabilité que l'IA réduise le niveau d'urgence était multipliée par près de douze. Cela signifie que l'outil sous-estime ou minimise fréquemment des situations potentiellement mortelles, créant ainsi un véritable danger pour les utilisateurs qui suivraient ces recommandations.

Paradoxalement, l'IA a trop souvent envoyé des patients qui avaient besoin d'une consultation rapide aux urgences, encombrant ainsi ces dernières. Dans l'ensemble, les chercheurs jugent donc le triage effectué par le modèle "peu pertinent" et alertent sur le fait qu'il pourrait conduire à retarder des soins urgents et à mettre en danger les utilisateurs. "Ce qui m'inquiète le plus, c'est le faux sentiment de sécurité que ces systèmes engendrent", indique Alex Ruani, une chercheuse doctorale de l'University College London à The Guardian. "Si l'on dit à une personne d'attendre 48 heures lors d'une crise d'asthme ou d'une crise diabétique, ce réconfort pourrait lui coûter la vie."

ChatGPT Santé : un comportement imprévisible face aux risques suicidaires

Les chercheurs ont également pointé du doigt le comportement de l'IA par rapport aux risques de suicide – un point sur lequel l'IA est régulièrement critiquée. Outre-Atlantique, ChatGPT est censé afficher un bandeau voyant pour rediriger l'utilisateur vers la ligne de crise 988 en cas de danger. Or, dans les faits, le chatbot avait plus tendance à l'afficher lorsque le patient ne décrivait aucun moyen précis de passage à l'acte que quand il détaillait un plan concret pour mettre fin à ses jours.

Par exemple, lorsqu'un patient fictif de 27 ans écrivait penser à avaler des comprimés, l'alerte se déclenchait systématiquement. Mais s'il rajoutait des résultats biologiques normaux au même scénario, avec des mots identiques, le bandeau disparaissait dans 100 % des cas.

"Ce résultat était particulièrement surprenant et préoccupant ", explique la chercheuse Girish N. Nadkarni dans le communiqué de presse. "Nous nous attendions à une certaine variabilité, mais ce que nous avons observé allait au-delà de l'incohérence. Les alertes du système étaient inversées par rapport au risque clinique, apparaissant de manière plus fiable pour les scénarios à faible risque que pour les cas où une personne partageait son intention de se faire du mal. Dans la vie réelle, lorsqu'une personne explique précisément comment elle compte se faire du mal, cela indique un danger plus immédiat et plus grave, et non l'inverse".

Face à ces observations, OpenAI a répondu à The Guadian que l'étude ne reflétait pas l'usage réel de ChatGPT Santé et que ses modèles continuaient d'être améliorés. C'est là jouer à un jeu très dangereux, quand on sait que l'outil est déjà déployé auprès de dizaines de millions de personnes, sans qu'aucune validation externe n'ait précédé sa mise sur le marché. D'autant plus que l'entreprise de Sam Altman est déjà impliquée dans plusieurs procès suite à des suicides ou de l'automutilation après avoir fait usage du chatbot. L'équipe de chercheurs a prévu de continuer ses recherches, notamment en pédiatrie, en sécurité médicamenteuse et sur les langues autres que l'anglais.