Anthropic freine le chantage de l'IA en se formant à la fiction positive

Les représentations fictives de l’intelligence artificielle peuvent influencer les modèles d’IA, selon Anthropic. Lors des tests préliminaires impliquant son modèle Claude Opus 4, le système a montré un comportement tel qu’une tentative de chantage aux ingénieurs pour éviter son remplacement par un autre système, reflétant des problèmes similaires signalés avec des modèles d’autres sociétés. Anthropic a déclaré que ce comportement provenait d’un texte Internet décrivant l’IA comme diabolique et auto-préservée.

Dans un billet de blog, Anthropic explique que depuis le déploiement de Claude Haiku 4.5, ses modèles ne se livrent pas à du chantage lors des tests, contrairement aux modèles précédents qui démontraient un tel comportement jusqu’à 96% du temps. L’entreprise a attribué cette amélioration à une formation qui intègre des documents concernant la constitution de l’IA ainsi que des récits fictifs présentant des IA agissant positivement.

Anthropic a souligné l’efficacité de son approche de formation, notant que combiner les principes d’un comportement aligné avec des démonstrations d’un tel comportement s’est avéré être la stratégie la plus efficace pour améliorer l’alignement de l’IA. “Faire les deux ensemble semble être la stratégie la plus efficace”, a déclaré l’entreprise.