Dans un document de recherche révolutionnaire publié par OpenAI, les chercheurs ont fourni une explication mathématique rigoureuse des raisons pour lesquelles les grands modèles de langage (LLM) comme ChatGPT hallucinent fréquemment, générant en toute confiance de fausses informations. L’étude, publiée le 16 septembre 2025 par Wei Xing dans The Conversation, soutient que ce problème n’est pas simplement un défaut de formation mais une conséquence inhérente au fonctionnement de ces modèles. Bien que le document propose des solutions potentielles, il souligne que leur mise en œuvre pourrait perturber l’expérience des utilisateurs et faire monter en flèche les coûts de calcul, rendant improbable une adoption généralisée pour les applications grand public.

Le problème principal vient de la nature autorégressive des LLM, qui génèrent des réponses en prédisant un mot à la fois sur la base de probabilités dérivées des données d’entraînement. Ce processus séquentiel conduit intrinsèquement à une accumulation d’erreurs. Selon les chercheurs, le taux d’erreur total pour générer une phrase entière est au moins deux fois plus élevé que le taux d’erreur pour une simple question oui/non. Par exemple, si un modèle a un taux d’erreur de 10 % sur les requêtes binaires, les erreurs au niveau des phrases pourraient doubler jusqu’à 20 % ou plus à mesure que les inexactitudes s’accumulent sur plusieurs jetons.

Les hallucinations sont fondamentalement limitées par la capacité du modèle à classer les réponses valides et non valides, une tâche qui s’avère difficile dans divers domaines de connaissances. Même avec des données d’entraînement impeccables, le mécanisme de prédiction probabiliste garantit un certain niveau de mensonges inévitables. Le document souligne que la rareté des informations dans les ensembles de données de formation exacerbe ce phénomène. Les faits qui apparaissent rarement sont plus sujets aux erreurs de mémorisation ou à la fabrication.

Un exemple frappant concerne les anniversaires de personnalités notables. L’analyse a révélé que si 20 % de ces anniversaires n’apparaissent qu’une seule fois dans les données de formation, les LLM de base devraient commettre des erreurs sur au moins 20 % des requêtes associées. Pour illustrer cela, les chercheurs ont testé des modèles de pointe le jour de l’anniversaire d’Adam Kalai, l’un des co-auteurs de l’article. Le modèle DeepSeek-V3, lors de tentatives distinctes, a généré trois dates extrêmement incorrectes : “03-07”, “15-06” et “01-01”. La date réelle tombe en automne, ce qui montre à quel point les mannequins peuvent affirmer avec confiance des détails très éloignés de la réalité.

Le cadre d’évaluation utilisé dans les benchmarks d’IA aggrave le problème. L’étude a examiné dix références majeures, notamment celles de Google, d’OpenAI et des principaux classements d’IA. Neuf d’entre eux utilisent des systèmes de notation binaires qui n’attribuent aucun point aux expressions d’incertitude, telles que « Je ne sais pas ». Cette configuration assimile les aveux honnêtes d’ignorance à des erreurs pures et simples, créant une incitation perverse pour les modèles à toujours deviner plutôt que s’abstenir.

Mathématiquement, les chercheurs prouvent que dans le cadre d’une évaluation binaire, deviner donne un score attendu plus élevé que retenir une réponse, quelle que soit la véritable probabilité d’exactitude. Si un modèle a ne serait-ce qu’une infime chance – disons 1 % – d’avoir raison, la récompense potentielle dépasse la pénalité en cas d’abstention. Cette « épidémie » d’incertitude pénalisante, comme la décrivent les auteurs, perpétue des résultats trop confiants et étouffe les progrès vers une IA plus fiable.

Le remède proposé par OpenAI consiste à intégrer l’estimation de la confiance dans le processus décisionnel du modèle. Avant de répondre, l’IA évaluerait son niveau de certitude et ne procéderait que si elle dépasse un seuil prédéfini. Les critères seraient ensuite ajustés pour obtenir des scores basés sur cette confiance, par exemple en pénalisant plus lourdement les erreurs (par exemple, -3 points) tout en récompensant les réponses correctes (+1 point) et en autorisant l’abstention pour les cas de faible confiance.

Le cadre mathématique démontre que des seuils appropriés encourageraient les modèles à exprimer naturellement l’incertitude, réduisant ainsi les hallucinations. Cependant, la mise en œuvre pratique révèle des inconvénients importants. Le document estime que l’application d’un seuil de confiance de 75 % pourrait amener ChatGPT à répondre « Je ne sais pas » à environ 30 % des requêtes, sur la base de lacunes factuelles dans les données de formation. Les utilisateurs, habitués à des réponses instantanées et faisant autorité, pourraient trouver cela frustrant et se tourner vers des alternatives moins prudentes.

Wei Xing fait un parallèle avec sa participation à un projet de surveillance de la qualité de l’air à Salt Lake City, dans l’Utah. Lorsque le système signale des incertitudes, dues à des conditions météorologiques défavorables ou à un étalonnage, l’engagement de l’utilisateur diminue par rapport à l’affichage de mesures fiables, même inexactes. Cette analogie souligne une préférence humaine plus large pour la certitude plutôt que pour l’exactitude, ce qui pourrait nuire à l’adoption de l’IA consciente de l’incertitude chez les consommateurs.

Au-delà de l’expérience utilisateur, les exigences informatiques constituent un formidable obstacle. Quantifier l’incertitude nécessite d’évaluer plusieurs chemins de réponse et d’estimer des intervalles de confiance, un processus beaucoup plus gourmand en ressources que la prédiction de jetons standard. Pour les services traitant des millions de requêtes quotidiennes, cela pourrait multiplier considérablement les coûts opérationnels. Incertitude établie en tant queLes méthodes de notification, développées au fil des décennies dans des domaines tels que les statistiques et l’apprentissage automatique, sont efficaces mais coûteuses en termes de calcul.

Des techniques avancées telles que l’apprentissage actif, dans lequel l’IA pose des questions de clarification aux utilisateurs, pourraient encore améliorer la précision, mais augmenter encore davantage les exigences. Ces approches sont réalisables dans des domaines à enjeux élevés où les erreurs entraînent de graves conséquences. Par exemple, dans la logistique de la chaîne d’approvisionnement, le commerce financier ou les diagnostics médicaux, le coût d’une hallucination (par exemple, des millions de dollars en perte de revenus ou en préjudices pour les patients) justifie l’investissement dans des systèmes prudents et gourmands en calcul.

Dans la conception de puces ou la gestion d’infrastructures économiques, l’IA consciente de l’incertitude devient non seulement viable mais essentielle. Le document note que lorsque les agents d’IA supervisent des opérations critiques, la situation économique change : le coût de contrôles de confiance approfondis est dérisoire par rapport aux risques d’erreurs trop confiantes. Cependant, l’IA grand public, qui domine les priorités de développement, fonctionne selon des règles différentes. Les utilisateurs exigent des réponses rapides et assurées à toute question, qu’il s’agisse d’anecdotes ou de conseils.

Les références continuent de privilégier les approximations, et l’efficacité du matériel, comme la baisse des coûts énergétiques par jeton ou l’amélioration des architectures de puces, pourrait éventuellement abaisser les obstacles. Pourtant, par rapport aux modèles d’estimation simplifiés d’aujourd’hui, la gestion de l’incertitude exigera toujours plus de puissance de traitement. Le document révèle par inadvertance un décalage dans les incitations commerciales : la vitesse et la confiance stimulent les profits dans les applications grand public, tandis que la précision passe au second plan.

Les techniques post-formation, telles que l’apprentissage par renforcement à partir de la rétroaction humaine (RLHF), ont atténué certaines hallucinations mais ne parviennent pas à s’attaquer aux causes profondes. La recherche prouve que même les modèles optimisés conservent ces inévitables mathématiques. Jusqu’à ce que les normes d’évaluation évoluent pour récompenser la nuance et que l’économie informatique donne la priorité à la fiabilité plutôt qu’à la vitesse, les hallucinations resteront une caractéristique des LLM grand public.

Cette révélation remet en question la trajectoire de l’industrie de l’IA. À mesure que les modèles deviennent plus grands et plus performants, la pression pour trouver un équilibre entre innovation et fiabilité s’intensifie. Le travail d’OpenAI appelle à un changement de paradigme, invitant les développeurs, les créateurs de référence et les utilisateurs à valoriser les réponses calibrées. Dans les secteurs à forte valeur ajoutée, l’adoption semble imminente ; pour les outils du quotidien, cela reste une perspective lointaine.

Les auteurs de l’article, dont des chercheurs d’OpenAI, concluent que sans un réalignement des incitations, la poursuite d’une IA sans faille restera insaisissable. Comme le note Wei Xing, professeur adjoint à l’École des sciences mathématiques et physiques de l’Université de Sheffield, dans l’article republié de The Conversation sous licence Creative Commons, « les incitations commerciales qui stimulent le développement de l’IA grand public restent fondamentalement mal alignées sur la réduction des hallucinations ».

Cette étude diagnostique non seulement un défaut persistant, mais trace également une voie à suivre, une voie qui exige des compromis entre la convivialité, le coût et la véracité. À mesure que l’IA s’intègre davantage dans la vie quotidienne, il sera crucial de résoudre ces tensions pour un progrès durable.