Une étude sur le modèle ChatGPT-5 d’OpenAI a déterminé qu’il produit des réponses incorrectes dans environ 25 % des cas, selon un article de Tom’s Guide. Bien que cela mette en évidence un taux d’erreur persistant, le modèle démontre des améliorations significatives en termes de précision par rapport à son prédécesseur, GPT-4.

Plus précisément, ChatGPT-5 fait environ 45 % d’erreurs factuelles en moins et génère six fois moins de réponses hallucinées ou entièrement inventées que GPT-4. Malgré ces progrès, l’étude rapporte que le modèle souffre toujours d’un excès de confiance et peut présenter en toute confiance des informations incorrectes, une caractéristique souvent appelée hallucination.

Les performances et la précision du modèle varient en fonction de la tâche spécifique. Par exemple, il a obtenu un score de 94,6 % au test de mathématiques AIME 2025 et un taux de réussite de 74,9 % sur un ensemble de tâches de codage du monde réel. Sur le benchmark plus exigeant MMLU Pro, un test académique couvrant les sciences, les mathématiques et l’histoire, ChatGPT-5 a atteint une précision d’environ 87 %. Cependant, il commet encore des erreurs de culture générale et des questions de raisonnement complexes.

L’étude attribue ces erreurs à plusieurs facteurs sous-jacents. Celles-ci incluent les limites du modèle dans la compréhension complète de questions nuancées, l’utilisation de données de formation qui peuvent être obsolètes ou incomplètes, et sa conception fondamentale basée sur une prédiction de modèles probabilistes. Ce mécanisme peut parfois générer des réponses qui semblent plausibles mais qui sont factuellement inexactes.

L’article conseille aux utilisateurs de vérifier toute information critique provenant de ChatGPT-5. Étant donné que le modèle n’est pas infaillible, cette prudence est particulièrement importante pour les demandes liées à des questions professionnelles, universitaires ou de santé, même avec les améliorations documentées de la fiabilité du modèle.