Guide Labs, une startup basée à San Francisco, a annoncé l’open source de Steerling-8B, un grand modèle de langage de 8 milliards de paramètres, lundi. La société, fondée par le PDG Julius Adebayo et la directrice scientifique Aya Abdelsalam Ismail, a développé le modèle avec une architecture distincte conçue pour retracer chaque jeton généré par le LLM jusqu’à ses origines spécifiques dans les données de formation. Cette fonctionnalité permet aux utilisateurs d’identifier des documents de référence pour des affirmations factuelles ou d’analyser des attributs complexes tels que l’humour et le codage de genre dans la sortie du modèle.
Le développement du Steerling-8B découle des recherches qu’Adebayo a commencées lors de son doctorat au MIT. En 2018, il a co-écrit un article largement cité démontrant que les méthodes existantes pour comprendre les modèles d’apprentissage profond n’étaient pas fiables. Ce travail fondamental a conduit à une nouvelle méthodologie pour créer des LLM qui intègre l’interprétabilité directement dans la structure du modèle. Plutôt que d’appliquer une analyse post-hoc (ce qu’Adebayo décrit comme des « neurosciences sur un modèle »), Guide Labs insère une couche conceptuelle qui regroupe les données en catégories traçables. Bien que cette approche nécessite davantage d’annotations de données initiales assistées par d’autres modèles d’IA, elle établit un cadre transparent à partir de zéro.
Malgré l’architecture structurée, Steerling-8B conserve des comportements émergents. L’équipe suit ce qu’elle appelle des « concepts découverts », que le modèle identifie indépendamment au cours de la formation. Adebayo a cité l’informatique quantique comme exemple de concept trouvé par le modèle, illustrant que le système ne repose pas uniquement sur des catégories de données pré-étiquetées.
Adebayo a abordé les complexités du contrôle du comportement des modèles, en particulier en ce qui concerne les attributs sensibles comme le sexe. “Si j’ai mille milliards de façons d’encoder le genre, et que je l’encode dans 1 milliard des 1 billions de choses que j’ai, vous devez vous assurer de trouver tous ces 1 milliard de choses que j’ai codées, et ensuite vous devez être capable de les activer et de les désactiver de manière fiable”, a déclaré Adebayo à TechCrunch. Il a noté que même si les modèles actuels permettent un certain contrôle, celui-ci reste fragile, qualifiant la gestion fiable de ces encodages de « l’une des questions du Saint Graal » dans le domaine.
La société identifie plusieurs applications pratiques pour l’interprétabilité du Steerling-8B. Dans les applications destinées aux consommateurs, l’architecture permet aux développeurs de bloquer le matériel protégé par le droit d’auteur ou de contrôler les sorties liées à des sujets sensibles tels que la violence ou la toxicomanie. Dans les secteurs réglementés, en particulier la finance, le modèle permet la conformité dans des domaines tels que l’évaluation des prêts, où l’algorithme peut être chargé de prendre en compte les dossiers financiers tout en ignorant explicitement la race. Guide Labs a également développé une technologie pour la recherche scientifique, répondant au besoin de comprendre pourquoi les modèles d’apprentissage profond produisent des résultats spécifiques, comme dans les simulations de repliement de protéines.
Les tests de performances indiquent que le Steerling-8B atteint 90 % des capacités des modèles existants non interprétables tout en utilisant moins de données d’entraînement. Adebayo soutient que cette efficacité démontre un passage de la science théorique à l’ingénierie pratique. “Ce modèle démontre que la formation de modèles interprétables n’est plus une sorte de science ; c’est désormais un problème d’ingénierie”, a déclaré Adebayo. “Nous avons compris la science et nous pouvons les mettre à l’échelle, et il n’y a aucune raison pour que ce type de modèle ne corresponde pas aux performances des modèles de niveau frontière.”
Guide Labs est né de Y Combinator et a obtenu un tour de table de 9 millions de dollars auprès d’Initialized Capital en novembre 2024. La feuille de route de la société comprend la création d’un modèle plus large et la fourniture d’une API et d’un accès agent aux utilisateurs. Adebayo a souligné l’importance de démocratiser l’interprétabilité à mesure que les systèmes d’IA deviennent plus puissants. “La façon dont nous formons actuellement les modèles est extrêmement primitive, et donc démocratiser l’interprétabilité inhérente sera en fait une bonne chose à long terme pour notre rôle au sein de la race humaine”, a déclaré Adebayo. “Alors que nous recherchons ces modèles qui vont être super intelligents, vous ne voulez pas que quelque chose prenne des décisions en votre nom qui soient en quelque sorte mystérieuses pour vous.”








