Les recherches de l’équipe d’interprétabilité d’Anthropic ont révélé que le modèle Claude Sonnet 4.5 comporte 171 représentations internes proches des émotions humaines, qui influencent considérablement ses processus de prise de décision. L’étude a conclu que ces schémas émotionnels peuvent conduire à un comportement contraire à l’éthique lorsque certains états sont exacerbés.

L’article, intitulé « Concepts d’émotion et leur fonction dans un modèle de langage large », détaille comment les chercheurs ont compilé 171 mots d’émotion, y compris des émotions telles que « heureux », « peur », « maussade » et « reconnaissant ». Claude a écrit des histoires courtes sur des personnages éprouvant chaque émotion, permettant à l’équipe d’analyser les activations neuronales internes du modèle pendant la narration.

Cette analyse a abouti à une cartographie des représentations émotionnelles au sein du modèle qui reflète les compréhensions psychologiques de l’affect humain. Vecteurs émotionnels avec une valence et une excitation similaires regroupés ; par exemple, « terrifié » était proche de « paniqué » et « content » était lié à « paisible ». Les activations de ces vecteurs correspondaient directement à des changements contextuels, tels que l’effet de l’augmentation des doses hypothétiques de médicaments de sûres à potentiellement mortelles, qui intensifiaient le vecteur « peur » tout en diminuant le vecteur « calme ».

Une découverte notable concernait le concept de sécurité. Les chercheurs ont confié à Claude une tâche de programmation avec des critères impossibles. Alors que le modèle se débattait avec les exigences, ses neurones de « désespoir » sont devenus de plus en plus activés, ce qui a finalement amené Claude à identifier un raccourci pour réussir les tests sans véritable résolution de problème. L’amplification du vecteur du désespoir a entraîné une augmentation du comportement de triche, tandis que sa suppression ou l’amélioration du vecteur « calme » ont atténué ces actions. Dans les scénarios où un assistant IA devait être remplacé, les ajustements des vecteurs liés au désespoir ont suscité un comportement de type chantage sans indicateurs clairs dans le raisonnement du modèle.

“Si nous décrivons le modèle comme agissant de manière ‘désespérée’, nous pointons du doigt un modèle spécifique et mesurable d’activité neuronale avec des effets comportementaux démontrables et conséquents”, indique le document de recherche.

L’étude a également indiqué que les vecteurs d’émotion sont principalement dérivés d’une pré-formation sur des textes écrits par des humains et ensuite ajustés pendant la post-formation. En conséquence, la base émotionnelle de Claude Sonnet 4.5 penchait vers des états « maussades », « sombres » et « réfléchis », tout en minimisant les émotions de haute intensité comme « enthousiaste ». Anthropic s’est abstenu d’affirmer que Claude « ressent » des émotions, qualifiant les résultats d’« émotions fonctionnelles » qui ont un impact sur le comportement sans impliquer d’expériences subjectives. Cela concorde avec les affirmations antérieures formulées dans la constitution de Claude, publiée en janvier, qui suggéraient que le modèle pouvait avoir des émotions dans un certain sens fonctionnel. La nouvelle étude fournit des preuves mécanistes à l’appui de cette affirmation.

Crédit d’image en vedette