ChatGPT 4.0 d’OpenAI a répondu correctement à 85 % des questions lors d’un examen de neurologie clinique, dépassant le score humain moyen de 73,8 %. Cette réalisation dans une étude de validation de principe indique le potentiel de l’IA en neurologie clinique. L’étude, menée par des chercheurs de l’hôpital universitaire de Heidelberg et du Centre allemand de recherche sur le cancer, portait à la fois sur ChatGPT 3.5 et ChatGPT 4.0.
Comparaison avec les anciennes versions et performances humaines
Alors que ChatGPT 4.0 a atteint un taux de réussite de 85 %, ChatGPT 3.5 a obtenu un score de 66,8 %. Les deux versions de ChatGPT utilisaient systématiquement un langage confiant, même lorsqu’il était incorrect. Les résultats suggèrent que même si ChatGPT peut répondre avec précision aux questions à choix multiples, cela n’équivaut pas à la capacité de pratiquer la médecine clinique ou de prendre des décisions cliniques.
Encore plus faible dans la pensée d’ordre supérieur
La recherche impliquait une banque de questions de l’American Board of Psychiatry and Neurology (ABPN) et du European Board for Neurology. Les performances de ChatGPT ont mis en évidence sa force dans les catégories comportementales, cognitives et psychologiques, mais ont montré des performances plus faibles dans les tâches nécessitant une réflexion d’ordre supérieur par rapport aux tâches de réflexion d’ordre inférieur. L’étude utilisait des questions évaluant à la fois la compréhension de base et la capacité à appliquer, analyser ou évaluer l’information.
Chercheurs : soyez prudent
Les résultats suggèrent que grands modèles de langage comme ChatGPT pourrait avoir des applications significatives en neurologie clinique, avec des améliorations supplémentaires. Cependant, les chercheurs mettent en garde contre une dépendance excessive à l’égard de ces modèles pour des tâches cognitives de haut niveau. Il est également important de noter que les modèles ont été formés sur de nombreuses données textuelles mais ne disposaient pas de capacités de recherche sur Internet. Les experts soulignent que toute application de la technologie des transformateurs dans des contextes cliniques ou éducatifs nécessite une validation humaine minutieuse et une vérification des faits.
Source: ChatGPT démontre sa maîtrise de l’examen de neurologie