Anthropic s’est excusé d’avoir secrètement limité son modèle d’IA, Claude Fable 5, avec des garde-fous cachés qui entravent le développement des chercheurs et des concurrents. La société a déclaré qu’elle améliorerait la transparence concernant le moment où ces restrictions s’appliquent, même si cela conduit Fable à refuser davantage de requêtes.
Fable est le premier modèle largement disponible de la classe de systèmes d’IA Mythos d’Anthropic, dont la société a averti qu’ils étaient trop dangereux pour être rendus publics. Il a été lancé avec des garanties qui l’empêchent de répondre à certaines requêtes « à haut risque ».
Un domaine de restriction est la distillation, une méthode permettant de former des modèles plus petits en utilisant les résultats de modèles plus grands. Dans la fiche système de Fable, Anthropic indiquait qu’elle modifierait et dégraderait les réponses aux requêtes perçues comme des tentatives de distillation sans informer les utilisateurs de ces changements.
Désormais, les requêtes suspectées d’être des tentatives de distillation seront par défaut sur Claude Opus 4.8, l’ancien modèle phare de la société, et les utilisateurs recevront des notifications chaque fois que cela se produira. Cette solution de repli s’applique également à d’autres domaines à haut risque comme la biologie, la chimie et la cybersécurité, à moins que ces requêtes ne soient entièrement bloquées en raison de réglementations de sécurité plus larges sur des sujets tels que les drogues et les armes.
La société a reconnu que ses mesures de sécurité ont par inadvertance rendu Fable presque inutilisable pour des requêtes de base dans des domaines comme la biologie, en raison de restrictions excessives. Anthropic a admis que le recours à des garanties invisibles était une erreur, soulignant que la transparence des mesures de sécurité est essentielle.
La décision de l’entreprise de dissimuler les restrictions s’est heurtée à d’importantes réactions négatives de la part de la communauté des chercheurs en IA, qui ont fait valoir que cela limitait les capacités du modèle, tant pour les évaluateurs que pour les concurrents. Anthropic a déclaré que l’utilisation de Claude pour créer des modèles concurrents violait ses conditions de service, après avoir précédemment accusé ses concurrents, dont DeepSeek, de distiller ses modèles à l’échelle industrielle.
« Les garanties visibles peuvent être sondées, elles doivent donc être robustes, ce qui prend du temps pour être efficace », a écrit Anthropic. “Les protections invisibles peuvent être ciblées plus précisément, ce qui nous permet d’expédier rapidement avec très peu de faux positifs. Nous avons opté pour des protections invisibles pour cette raison, et ce n’était pas un bon compromis. Vous devriez avoir une visibilité sur les protections que nous avons mises en place et pourquoi. Nous sommes désolés de ne pas avoir trouvé le bon équilibre”, a ajouté la société.








