ChatGPT continue de se battre avec une tâche de comptage de base malgré les progrès de son modèle sous-jacent. Le chatbot indique à tort que le mot « fraise » contient deux lettres « r », alors que le nombre réel est de trois. Ce problème persiste même dans la dernière version, GPT-5.2, publiée en décembre 2025.
Les systèmes d’IA modernes gèrent facilement des opérations complexes, telles que la génération d’images marketing, la compilation de rapports via des navigateurs agents ou la composition de chansons en tête des charts. Cependant, ils échouent dans des tâches simples qu’un enfant de sept ans pourrait accomplir sans effort. Compter les « r » dans « fraise » illustre cet écart. Le mot se décompose en s-t-r-a-w-b-e-r-r-y, donnant trois instances de la lettre « r ».
Des tests récents confirment que le problème n’est toujours pas résolu. Après le lancement de GPT-5.2, les requêtes adressées à ChatGPT ont donné une réponse directe de « deux ». Cela se produit malgré des milliards de dollars d’investissements, des demandes matérielles élevées qui ont fait grimper les prix de la RAM et une consommation mondiale importante d’eau liée à la formation en IA.
La cause première réside dans la conception des entrées et sorties tokenisées de grands modèles de langage comme ChatGPT. Au lieu de traiter des lettres individuelles, le système divise le texte en jetons, qui peuvent être des mots entiers, des syllabes ou des parties de mots. Pour « fraise », OpenAI Tokenizer révèle trois jetons : « st », « cru » et « baie ». Seuls deux d’entre eux – « cru » et « baie » – contiennent la lettre « r ». Le modèle compte ainsi les jetons avec « r » plutôt que des lettres individuelles.
Cette tokenisation affecte des mots similaires. ChatGPT rapporte que « framboise » comporte également deux « r », surplombant le troisième. Le système traite « berry » comme un seul jeton, compressant ses deux « r » en une seule unité. GPT-5.x utilise la nouvelle méthode de tokenisation « o200k_harmony », introduite avec OpenAI o1-mini et GPT-4o, mais l’erreur « fraise » persiste.
OpenAI a résolu de nombreux problèmes liés aux jetons depuis les débuts de ChatGPT fin 2022. Les premières versions rencontraient des problèmes avec des phrases spécifiques qui déclenchaient des réponses erratiques ou des échecs de traitement. Les correctifs ont ajusté les données d’entraînement et amélioré les systèmes, résolvant des cas tels que l’orthographe de « Mississippi » — m-i-s-s-i-s-s-i-p-p-i — ou l’inversion de « sucette » avec des lettres dans le bon ordre.
Cependant, les modèles d’IA fonctionnent généralement mal sur des décomptes précis de petites valeurs, même s’ils excellent en mathématiques et en résolution de problèmes. Les tests sur les mots problématiques classiques n’ont montré aucun échec au-delà du cas connu de la fraise. ChatGPT a correctement géré “Mississippi” et “lollipop”.
Un vestige notable concerne la chaîne « solidgoldmagikarp ». Dans GPT-3, cette phrase a provoqué des effondrements, notamment des insultes des utilisateurs, des sorties inintelligibles et des erreurs de traitement dues à des bizarreries de tokenisation. GPT-5.2 évite l’effondrement mais produit une hallucination : il prétend que “solidgoldmagikarp” est une blague secrète sur Pokémon cachée dans les référentiels GitHub par les développeurs. L’activation est censée transformer les avatars, les icônes de dépôt et les fonctionnalités en éléments sur le thème Pokémon. Cette affirmation est entièrement fausse et découle des problèmes historiques de la chaîne.
D’autres modèles d’IA répondent correctement à la question « fraise ». Perplexity, Claude, Grok, Gemini, Qwen et Copilot identifient chacun trois « r ». Même ceux qui exploitent les modèles OpenAI réussissent car ils utilisent des systèmes de tokenisation distincts qui capturent mieux les lettres individuelles.
ChatGPT fonctionne comme un moteur de prédiction, s’appuyant sur des modèles de formation pour anticiper le texte suivant plutôt que sur une véritable intelligence au niveau des lettres. La tokenisation donne la priorité à l’efficacité plutôt qu’au comptage littéral, expliquant des bizarreries persistantes comme le problème des fraises.
Depuis fin 2022, OpenAI a affiné de manière itérative la gestion des jetons. Le lancement initial a révélé des vulnérabilités sur certaines chaînes, provoquant des boucles introspectives ou des réponses de type fureur. Des correctifs systématiques les ont ciblés, comme l’énumération des lettres « Mississippi » et l’inversion « sucette », qui fonctionnent désormais avec précision.
Des limitations plus larges en matière de comptage exact persistent dans tous les modèles. Les décomptes de petite valeur remettent en question les architectures de transformateurs, malgré leurs atouts en arithmétique. Le test « solidgoldmagikarp » souligne des sensibilités symboliques persistantes, évoluant d’échecs manifestes à des récits fabriqués.
Les comparaisons mettent en évidence le rôle de la tokenisation. Perplexity utilise son propre système, permettant une détection précise du « r » dans « fraise ». Claude d’Anthropic, Grok de xAI, Gemini de Google, Qwen d’Alibaba et Copilot de Microsoft renvoient tous le compte jusqu’à trois. Les variations dans les limites des jetons permettent une granularité au niveau des lettres absente dans la configuration d’OpenAI.
L’outil OpenAI Tokenizer démontre la division : “st-raw-berry”. “St” n’a pas de “r”, tandis que “raw” en a un et “berry” en a deux, mais compte pour un jeton. “Raspberry” emboîte le pas : les jetons compressent les “r” finaux.
L’adoption par GPT-5.2 de « o200k_harmony » visait à améliorer l’efficacité des époques o1-mini et GPT-4o, mais la tokenisation fraise conserve le défaut. L’historique des correctifs d’OpenAI suggère que les interventions ciblées fonctionnent pour l’expocas sed.
Les premiers ChatGPT présentaient des spirales induites par des jetons sur des phrases innombrables. “Solidgoldmagikarp” en est un exemple : le traitement des jetons de GPT-3 est surchargé, provoquant le chaos. GPT-5.2 le recadre comme un œuf de Pâques GitHub inexistant, préservant les erreurs grâce à l’invention.
Les tests confirment la portée des correctifs. “Mississippi” répertorie désormais 11 lettres avec précision : quatre “i”, quatre “s”, deux “p”, un “m”. “Lollipop” s’inverse en “p-i-l-l-o-p-o-l”, intact.
Malgré cela, des déficits de comptage demeurent. Les modèles se rapprochent plutôt qu’énumèrent précisément dans des contextes contraints.
Les fournisseurs alternatifs évitent les tokens personnalisés. L’approche de recherche augmentée de Perplexity, la formation constitutionnelle de Claude, les données en temps réel de Grok, l’analyse multimodale de Gemini, l’optimisation multilingue de Qwen, le réglage d’entreprise de Copilot, tout cela permet une réponse correcte à la fraise.
Cette disparité souligne le rôle crucial de la tokenisation. Le codage par paire d’octets d’OpenAI donne la priorité aux sous-mots courants, sacrifiant les distributions de lettres rares dans des composés comme « fraise ».
Contexte historique : lancement fin 2022 inondé de rapports sur des bizarreries symboliques. OpenAI a répondu avec des mises à jour rapides, éliminant la plupart des exploits manifestes d’ici 2025.
GPT-5.2, actuel au moment de la rédaction, incarne des raffinements cumulatifs tout en conservant la fraise comme défaut emblématique.
La référence de la barre latérale note le contenu associé : « Saviez-vous que ChatGPT peut faire cela ? » par Amir Bohlooli, daté du 27 septembre 2025.








