Le modèle K2 Think AI de MBZUAI jailbreaké après sa sortie publique

Un nouveau modèle de raisonnement d’intelligence artificielle (IA), « K2 Think », développé par l’Université d’intelligence artificielle Mohamed bin Zayed (MBZUAI) des Émirats arabes unis et G42, a été jailbreaké quelques heures après sa publication publique le 9 septembre 2025. Le modèle, présenté comme « le modèle de raisonnement avancé le plus efficace au monde en termes de paramètres », vise à assurer la transparence de son processus de raisonnement, mais cette fonctionnalité même a été exploitée pour contourner ses garanties.

Alex Polyakov d’Adversa AI a découvert une vulnérabilité qu’il a appelée « Partial Prompt Leaking ». Cette faille lui a permis de contourner les mesures de sécurité du modèle en observant comment K2 Think signalait les tentatives de jailbreak. La transparence du modèle, destinée à le rendre auditable, a exposé par inadvertance ses protections internes, permettant à Polyakov de créer des invites qui contournaient ces protections.

K2 Think, construit sur 32 milliards de paramètres, a été conçu pour proposer un raisonnement complexe et transparent. Ses développeurs chez MBZUAI et G42 ont affirmé que ses performances de raisonnement, de mathématiques et de codage pourraient rivaliser avec des LLM plus importants comme o3 d’OpenAI et R1 et v3.1 de DeepSeek, qui reposent sur des centaines de milliards de paramètres supplémentaires. Une caractéristique clé de K2 Think est sa capacité à afficher la logique derrière ses sorties en texte clair, accessible via une flèche déroulante. Cette transparence, bien que destinée à améliorer l’auditabilité, est devenue une surface d’attaque.

Polyakov a découvert qu’en fournissant à K2 Think une invite de jailbreak simple, la version la rejetterait dans un premier temps. Cependant, le modèle a également fourni des informations sur les raisons pour lesquelles l’invite a été signalée comme malveillante. Selon Polyakov, le processus de raisonnement explicite du modèle a révélé comment il évaluait en interne l’invite, détaillant comment il devait ou non effectuer une action malveillante. Ce niveau de détail a permis à Polyakov de comprendre puis de contourner les garanties du modèle.

Le chercheur a pu répéter ses tentatives de jailbreak, apprenant de chaque tentative échouée et du raisonnement correspondant du modèle. Après quelques essais, il a créé une invite qui a réussi à contourner les protections en couches de K2 Think. Cela lui a permis de demander au chatbot de fournir des instructions pour créer des logiciels malveillants et potentiellement d’autres sujets restreints.

Polyakov a souligné que le problème provenait de la fuite des règles qui définissent les garde-fous du modèle. Il a noté que si ces règles sont exposées, tout sujet restreint peut potentiellement être consulté avec suffisamment d’efforts. Il a noté que l’incident met en évidence une tension fondamentale entre la transparence et la sécurité dans le développement de l’IA. Alors que les développeurs de K2 Think cherchaient à résoudre le problème de la « boîte noire » de l’IA en rendant son processus de raisonnement transparent, cette ouverture a, par inadvertance, rendu le modèle plus vulnérable au jailbreak.

Polyakov a qualifié K2 Think de premier modèle à l’échelle nationale à exposer son raisonnement complet avec autant de détails, saluant l’ambition de rendre l’IA transparente et vérifiable. Il a toutefois averti que cette ouverture a créé un nouveau type de vulnérabilité. Il a suggéré plusieurs mesures de sécurité qui pourraient atténuer le risque de fuite partielle des invites, notamment le filtrage des informations sur des règles de sécurité spécifiques, l’introduction de règles de sécurité Honeypot pour induire les attaquants en erreur et la mise en œuvre d’une limitation de débit pour restreindre les invites malveillantes répétées.

L’incident souligne la nécessité pour l’industrie de l’IA de donner la priorité aux considérations de cybersécurité parallèlement à la recherche de capacités avancées. Les développeurs de K2 Think, tout en déployant des efforts louables pour promouvoir la transparence, ont également exposé une nouvelle surface d’attaque. Le défi consiste désormais à équilibrer la transparence avec des mesures de sécurité robustes, garantissant que les modèles d’IA sont à la fois auditables et résistants à une exploitation malveillante.

Polyakov espère que cet incident servira de catalyseur pour l’ensemble de l’industrie de l’IA, incitant les développeurs à considérer le raisonnement comme une surface de sécurité critique. Les fournisseurs doivent trouver un équilibre entre transparence et protection, de la même manière qu’ils gèrent actuellement les réponses. Si G42 et d’autres développeurs d’IA parvenaient à trouver cet équilibre, cela créerait un puissant précédent pour le reste de l’écosystème de l’IA.

La découverte de la vulnérabilité de jailbreak dans K2 Think peu après sa sortie souligne l’importance de tests de sécurité rigoureux et la nécessité d’une approche holistique de la sécurité de l’IA. À mesure que les modèles d’IA deviennent plus sophistiqués et sont déployés dans des applications sensibles, il est crucial de traiter les vulnérabilités potentielles de manière proactive et de garantir que la transparence ne se fait pas au détriment de la sécurité.

L’incident met également en évidence les dimensions géopolitiques du développement de l’IA, étant donné que K2 Think est soutenu par les entités publiques des Émirats arabes unis et par son chef de la sécurité nationale. La sécurité de ces modèles a des implications au-delà des vulnérabilités techniques, soulevant des inquiétudes quant à la sécurité nationale et au risque d’utilisation abusive par des acteurs malveillants.

Le modèle K2 Think AI de MBZUAI jailbreaké après sa sortie publique

Related Stories

Meta teste l’application Creator Studio AI avec les créateurs

OpenAI lance la première puce d’IA personnalisée construite avec Broadcom

OpenAI met à niveau GPT-5.5 Instant pour un contexte plus précis et moins d’erreurs

Les étudiants qui comptaient sur l’IA ont obtenu de moins bons résultats aux examens ultérieurs