Anthropic n’a pas publié de document technique sur Claude Mythos, ce qui a incité Kye Gomez à lancer OpenMythos, un projet open source sur GitHub. OpenMythos est conçu pour reconstruire l’architecture Claude Mythos en utilisant les premiers principes de PyTorch.

Le projet propose que Claude Mythos soit un type d’architecture connu sous le nom de transformateurs de profondeur récurrente (RDT), qui diffèrent fondamentalement des transformateurs traditionnels. Les transformateurs standard traitent les entrées à travers une série de couches uniques avec des poids indépendants, tandis que les RDT appliquent un ensemble fixe de poids de manière itérative au cours d’un seul passage vers l’avant.

Cette méthodologie permet à la profondeur du raisonnement de dépendre du nombre d’itérations exécutées au moment de l’inférence. OpenMythos présente une structure en trois parties : Prelude, Recurrent Block et Coda, où Prelude et Coda sont chacun constitués de couches de transformateur standard qui fonctionnent une fois, et le bloc récurrent peut boucler jusqu’à 16 fois.

A chaque étape de la boucle, l’état caché se met à jour selon l’équation : ht+1 = A·ht + B·e + Transformer(ht, e). Ici, e représente l’entrée codée du Prélude qui est réinjectée à chaque itération pour maintenir la continuité. Les matrices A et B dictent dans quelle mesure l’état caché précédent et l’entrée codée influencent l’état suivant.

Le bloc récurrent intègre une couche de mélange d’experts (MoE) qui active sélectivement un sous-ensemble d’experts par jeton, facilitant ainsi la diversité informatique. Chaque itération utilise une sélection différente d’experts, permettant des calculs distincts tout en partageant les poids de base.

OpenMythos utilise également Multi-Latent Attention, ce qui réduit considérablement l’utilisation de la mémoire KV. Cette architecture permet de raisonner sans émission de jetons intermédiaires, contrairement aux invites de chaîne de pensée standard, qui traitent le raisonnement via des jetons intermédiaires.

OpenMythos répond aux défis de formation courants associés aux modèles en boucle, tels que les problèmes de stabilité tels que l’explosion résiduelle et la réflexion excessive. La stabilité est maintenue en veillant à ce que le rayon spectral de la matrice A reste inférieur à 1, comme indiqué dans l’architecture Parcae.

L’arrêt du temps de calcul dynamique adaptatif (ACT) est mis en œuvre pour déterminer les critères d’arrêt pour une boucle en fonction de la complexité du jeton. Des adaptateurs Depth-Wise LoRA sont également utilisés pour créer des comportements uniques par itération, minimisant ainsi l’augmentation des paramètres.

Les recherches suggèrent qu’un RDT avec 770 millions de paramètres peut offrir des performances équivalentes à celles d’un transformateur standard avec 1,3 milliard de paramètres. Cela indique que la profondeur du raisonnement évolue avec le calcul d’inférence, remettant en question les paradigmes existants sur la relation entre le nombre de paramètres et la capacité du modèle.

OpenMythos fournit une implémentation pratique pour explorer la dynamique des transformateurs en boucle et la profondeur du raisonnement, guidant potentiellement les progrès futurs dans le développement de l’IA. Le projet fournit une implémentation PyTorch configurable, une injection récurrente stable LTI, des adaptateurs LoRA en profondeur et une base de recherche reproductible.

Gomez a déclaré : « Que Mythos soit ou non un RDT, OpenMythos offre des ressources concrètes à la communauté des chercheurs pour étudier cette classe d’architecture sous-explorée et ses implications pour l’IA. »

Crédit d’image en vedette