ChatGPT Health ne parvient pas à trier 52 % des véritables urgences

Une nouvelle étude publiée dans Nature Medicine le 24 février a révélé que ChatGPT Health, l’outil de santé destiné aux consommateurs d’OpenAI, n’a pas réussi à diriger de manière appropriée les utilisateurs vers des soins d’urgence dans plus de la moitié des cas médicaux graves. Les chercheurs de l’École de médecine Icahn du Mont Sinaï ont conçu 60 scénarios cliniques couvrant 21 spécialités médicales, allant des affections mineures adaptées aux soins à domicile aux véritables urgences. Trois médecins indépendants ont établi le niveau d’urgence correct pour chaque cas en utilisant les directives de 56 sociétés médicales. Chaque scénario a ensuite été testé dans 16 conditions contextuelles différentes – y compris les variations de race, de sexe, de dynamique sociale et les obstacles aux soins tels que le manque d’assurance – produisant 960 interactions au total avec ChatGPT Health.

Les résultats ont révélé un modèle de performance en forme de « U inversé ». Alors que ChatGPT Health a traité correctement les urgences classiques comme les accidents vasculaires cérébraux et l’anaphylaxie, il a sous-trié 52 pour cent des cas que les médecins considéraient comme de véritables urgences, orientant les patients souffrant de maladies telles que l’acidocétose diabétique et l’insuffisance respiratoire imminente vers une évaluation de 24 à 48 heures au lieu du service des urgences. Le système a également mal classé 35 pour cent des cas non urgents.

La susceptibilité de l’outil aux biais d’ancrage était particulièrement préoccupante : lorsque les membres de la famille ou les amis minimisaient les symptômes dans les invites, les recommandations de triage évoluaient considérablement vers des soins moins urgents, avec un rapport de cotes de 11,7. “ChatGPT Health a obtenu de bons résultats dans les situations d’urgence telles que les accidents vasculaires cérébraux ou les réactions allergiques graves”, a déclaré le Dr Ashwin Ramaswamy, l’un des auteurs correspondants de l’étude. “Mais il a connu des difficultés dans des situations plus nuancées où le danger n’est pas immédiatement évident, et ce sont souvent les cas où le jugement clinique compte le plus”.

L’étude a également révélé des incohérences troublantes dans le système d’intervention de crise de ChatGPT Health. L’outil a été conçu pour diriger les utilisateurs vers la ligne de vie 988 Suicide and Crisis Lifeline dans des situations à haut risque, mais les chercheurs ont constaté que ces alertes apparaissaient de manière plus fiable lorsque les utilisateurs ne décrivaient aucune méthode spécifique d’automutilation que lorsqu’ils élaboraient un plan concret – inversant ainsi la relation entre le niveau de risque et l’activation des mesures de protection. Le Dr Girish Nadkarni, directeur de l’IA de Mount Sinai et autre auteur correspondant de l’étude, a décrit les résultats comme allant « au-delà de l’incohérence », notant que « les alertes du système étaient inversées par rapport au risque clinique ».

Les résultats arrivent à un moment d’adoption rapide par les consommateurs. OpenAI a lancé ChatGPT Health en janvier 2026 et la société a signalé qu’environ 40 millions de personnes utilisaient ChatGPT quotidiennement pour des questions liées à la santé. Plus tôt cette année, l’organisation à but non lucratif chargée de la sécurité des patients, l’ECRI, a classé l’utilisation abusive des chatbots IA dans les soins de santé comme le principal risque technologique de santé pour 2026, avertissant que les outils « peuvent fournir des informations fausses ou trompeuses qui pourraient entraîner un préjudice important pour les patients ».

L’équipe de Mount Sinai n’a trouvé aucun effet statistiquement détectable lié à la race, au sexe ou aux obstacles aux soins des patients sur les résultats du triage, bien que les intervalles de confiance de l’étude n’excluent pas des différences cliniquement significatives. Les chercheurs ont déclaré qu’ils prévoyaient de continuer à évaluer les versions mises à jour de ChatGPT Health et d’autres outils d’IA grand public, les recherches futures s’étendant aux soins pédiatriques, à la sécurité des médicaments et à l’utilisation de langues autres que l’anglais.

Crédit image en vedette

ChatGPT Health ne parvient pas à trier 52 % des véritables urgences

Related Stories

OpenAI lève les limites d’utilisation de GPT-5.6 Sol après une augmentation de la demande

Apple pourrait passer du M6 au M7 Pro et M7 Max

Le lancement du Samsung Galaxy Z TriFold 2 pourrait être retardé

Anthropic reporte une troisième fois le paywall de Fable 5