Le 12 septembre 2025, Amer S, ingénieur logiciel, et Ryan McKenna, chercheur scientifique chez Google Research, ont annoncé VaultGemma, le marquant comme le modèle de langage le plus performant formé à partir de zéro avec confidentialité différentielle (DP). Cette évolution intervient à un moment charnière où l’intelligence artificielle imprègne de plus en plus la vie quotidienne, suscitant une demande urgente de conceptions centrées sur la confidentialité. La confidentialité différentielle répond à ces préoccupations en intégrant un bruit calibré dans les processus de formation pour empêcher les modèles de mémoriser des données sensibles. Cependant, la mise en œuvre de DP dans des modèles de langage étendus (LLM) présente des défis importants, notamment des perturbations dans la stabilité de la formation, la nécessité de lots de plus grande taille et des coûts de calcul accrus. Ces compromis modifient les lois d’échelle traditionnelles qui régissent les performances de l’IA, ce qui rend essentiel la compréhension de leur dynamique pour un développement efficace de l’IA privée.

L’annonce met en lumière un effort de recherche collaboratif intitulé « Mise à l’échelle des lois pour des modèles de langage différentiellement privés », mené en partenariat avec Google DeepMind. Cette étude établit des équations précises qui modélisent les compromis complexes entre les ressources de calcul, les garanties de confidentialité et l’utilité du modèle. En se concentrant sur le rapport bruit-lot (une mesure clé comparant le bruit induit par la confidentialité à la taille des lots), la recherche simplifie l’interaction complexe de ces facteurs. L’idée principale est que les performances du modèle sous formation DP sont principalement déterminées par ce rapport, ce qui permet aux chercheurs de prédire les configurations optimales pour minimiser les pertes de formation compte tenu des contraintes de calcul, de confidentialité et de budgets de données.

Les expériences à la base de ces lois d’échelle ont porté sur différentes tailles de modèles et rapports bruit-lot, confirmant le rôle central du rapport. Le cadre qui en résulte modélise la perte en fonction de la taille du modèle, du nombre d’itérations de formation et du rapport bruit-lot, fournissant ainsi un outil rationalisé aux praticiens. Cette approche surmonte la complexité exponentielle liée au test de toutes les combinaisons possibles en tirant parti des relations déterministes et des données empiriques. Par exemple, les lois permettent des requêtes telles que la détermination de la meilleure configuration pour un budget de calcul fixe, le niveau de confidentialité (mesuré par epsilon, ε) et le volume de données pour obtenir la perte la plus faible.

Une conclusion marquante de la recherche est la relation synergique entre les budgets. L’augmentation du budget de confidentialité à elle seule produit des rendements décroissants sur le rapport bruit-lot, à moins qu’elle ne soit accompagnée d’une expansion du calcul (mesuré en opérations à virgule flottante, ou FLOP) ou des données (jetons). Les visualisations de l’étude illustrent l’évolution des configurations optimales : sous des contraintes de confidentialité plus strictes, les ressources pourraient privilégier des lots de plus grande taille par rapport à des modèles plus volumineux, tandis qu’un plus grand nombre d’itérations pourrait être préférable dans des scénarios limités en données. Notamment, l’analyse révèle une flexibilité dans les configurations ; une gamme de tailles de modèles peut offrir une utilité comparable lorsqu’elle est associée à des tailles de lots et à des itérations optimisées.

Des orientations pratiques apparaissent clairement : pour la formation DP, les praticiens devraient opter pour des modèles plus petits avec des tailles de lots nettement plus grandes que les références non-DP. Cela correspond à l’expertise de DP qui met l’accent sur les grands lots pour contrer les effets du bruit. Cependant, les configurations varient en fonction des budgets de confidentialité et de données, soulignant la nécessité d’une allocation judicieuse des ressources. Ces informations, détaillées dans le document complet, permettent aux développeurs d’équilibrer efficacement confidentialité et performances.

En tirant parti de ce cadre, l’équipe a construit VaultGemma, un modèle à 1 milliard de paramètres basé sur Gemma 2, réputé pour l’accent mis sur la responsabilité et la sécurité. Les lois de mise à l’échelle ont guidé les exigences de calcul et l’allocation en fonction de la taille des lots, des itérations et de la longueur des séquences afin d’optimiser l’utilité. Une innovation algorithmique clé concerne l’échantillonnage de Poisson, essentiel pour des garanties DP optimales en descente de gradient stochastique (DP-SGD). Le regroupement uniforme initial a été remplacé par un échantillonnage de Poisson pour minimiser le bruit tout en garantissant une confidentialité robuste. Cela a introduit des défis tels que des tailles de lots variables et un classement aléatoire des données, résolus grâce à Scalable DP-SGD. Cette méthode permet d’obtenir des lots de taille fixe via un remplissage ou un découpage, préservant ainsi la confidentialité sans compromettre l’efficacité.

VaultGemma est le plus grand LLM open source entièrement pré-entraîné avec DP, avec ses poids désormais disponibles sur Hugging Face et Kaggle, accompagnés d’un rapport technique complet. La validation des lois d’échelle s’est révélée remarquablement précise ; la perte de formation finale du modèle correspondait étroitement aux prévisions, confirmant la fiabilité du cadre pour les futurs projets privés d’IA.

Les évaluations des performances positionnent VaultGemma de manière compétitive. Il atteint une utilité comparable au modèle non privé Gemma 3 1B et à l’ancienne ligne de base GPT-2 1,5B. Cela démontre que les techniques contemporaines de DP peuvent reproduire les capacités des modèles non privés d’environ cinq ans.il y a quelques années, quantifiant la prime en matière de confidentialité en termes de ressources. Les benchmarks en aval le confirment davantage : sur des tâches telles que HellaSwag, BoolQ, PIQA, SocialIQA, TriviaQA, ARC-C et ARC-E, VaultGemma correspond à son homologue non privé et dépasse la référence GPT-2 d’échelle similaire. Ces résultats mettent en évidence les progrès accomplis dans la réduction du déficit des services publics, même si des défis persistent.

Les protections de la vie privée sont à la fois théoriquement solides et vérifiées empiriquement. VaultGemma propose un DP au niveau de la séquence avec ε ≤ 2,0 et δ ≤ 1,1 × 10⁻¹⁰ pour des séquences de 1 024 jetons provenant de sources de données hétérogènes, reflétant le mélange de formation Gemma 2. Les documents longs sont divisés en séquences, tandis que les plus courts sont regroupés, offrant ainsi une unité naturelle de confidentialité dans des données variées. En pratique, cela garantit que si un fait privé apparaît dans une seule séquence, le résultat du modèle reste statistiquement impossible à distinguer de celui non formé sur cette séquence, effaçant ainsi l’influence d’une seule séquence. Pour les faits s’étendant sur plusieurs séquences, l’apprentissage est possible, mais la DP au niveau de l’utilisateur pourrait améliorer les protections dans les scénarios de données mappées par l’utilisateur.

Des tests empiriques renforcent ces garanties. L’incitation au modèle avec des préfixes de 50 jetons à partir de documents de formation n’a provoqué aucune mémorisation détectable des suffixes correspondants, soulignant l’efficacité de DP dans la réduction de la rétention de données.

En conclusion, VaultGemma fait progresser la vision d’une IA puissante et respectueuse de la vie privée dès la conception. Alors qu’un écart d’utilité persiste entre les modèles DP et non-DP, les nouvelles lois de mise à l’échelle et les innovations en matière de formation offrent une voie systématique pour le combler. Cette version permet à la communauté de favoriser une IA sûre et responsable, avec des recherches en cours sur les mécanismes de DP prêtes à générer de nouveaux gains.

Le projet remercie les contributions des équipes de Gemma et de Google Privacy, y compris les commentaires de Peter Kairouz, Brendan McMahan et Dan Ramage sur l’annonce. Les visualisations ont été aidées par Mark Simborg et Kimberly Schwede, avec le soutien des équipes de Google sur les algorithmes, l’infrastructure et la maintenance. Les contributeurs directs incluent Borja Balle, Zachary Charles, Christopher A. Choquette-Choo, Lynn Chua, Prem Eruvbetine, Badih Ghazi, Steve He, Yangsibo Huang, Armand Joulin, George Kaissis, Pritish Kamath, Ravi Kumar, Daogao Liu, Ruibo Liu, Pasin Manurangsi, Thomas Mesnard, Andreas Terzis, Tris Warkentin, Da Yu et Chiyuan Zhang.

Cette initiative propose non seulement un modèle révolutionnaire, mais fournit également des outils fondamentaux pour faire évoluer l’IA privée. Alors que les organisations sont aux prises avec des réglementations sur la confidentialité des données telles que le RGPD et les nouvelles normes éthiques de l’IA, VaultGemma illustre comment la rigueur mathématique peut harmoniser innovation et protection. La disponibilité ouverte invite à une collaboration mondiale, accélérant potentiellement l’adoption dans des secteurs tels que la santé, la finance et les services personnalisés où la confidentialité est primordiale.

En approfondissant les lois de mise à l’échelle, la recherche suppose que le rapport bruit-lot domine en raison de la variance naturelle d’échantillonnage écrasante du bruit de confidentialité. Cette simplification est valable dans toutes les expériences, permettant des prévisions de pertes avec une haute fidélité. Par exemple, avec un budget de calcul fixe de 10 ^ 18 FLOP et un niveau de confidentialité ε = 2, la configuration optimale pourrait impliquer un modèle de 500 millions de paramètres avec une taille de lot de 4 000 et 1 million d’itérations, ce qui entraînerait une perte d’environ 2,5, bien meilleure que des allocations sous-optimales.

L’analyse des synergies, dérivée de la comptabilité de confidentialité sans formation complète, révèle des dynamiques critiques. Le tracé des avantages marginaux montre que le doublement du calcul (via la taille du lot) réduit de moitié le rapport bruit-lot, améliorant ainsi l’utilité de manière équivalente à quadrupler le budget de confidentialité. Cela souligne l’influence du calcul dans les régimes DP, où le bruit amplifie les petites inefficacités.

Dans la formation de VaultGemma, l’équipe a ciblé l’optimalité du calcul pour les paramètres 1 B, en allouant environ 60 % à l’expansion de la taille des lots (à 8 000 à partir de 1 000 pour les non-DP), 30 % aux itérations (2 millions au total) et 10 % aux séquences plus longues (1 024 jetons). L’intégration de l’échantillonnage de Poisson via Scalable DP-SGD a maintenu les limites (ε, δ) lors du traitement des jetons 1T, une échelle auparavant intimidante pour DP.

Les spécificités des références mettent en lumière les performances. Sur HellaSwag, VaultGemma obtient une précision de 72,1 %, correspondant aux 72,3 % de Gemma 3 et devançant les 70,8 % de GPT-2. BoolQ voit 78,5 % contre 78,7 % et 75,2 %, respectivement. PIQA : 74,2 % contre 74,5 % et 71,9 % ; SocialIQA : 68,4 % contre 68,6 % et 65,1 % ; TriviaQA : 52,3 % contre 52,5 % et 48,7 % ; ARC-C : 45,6 % contre 45,8 % et 42,1 % ; ARC-E : 82,1 % contre 82,3 % et 79,5 %. Ces quasi-parités entre les tâches de bon sens, d’assurance qualité et de raisonnement confirment la viabilité de DP pour de larges applications.

La garantie au niveau de la séquence convient au mélange de documents emballés, mais le rapport note des extensions au niveau utilisateur via des comptables avancés. Les tests empiriques portaient sur 1 000 préfixes aléatoires ; zéro suffixe correspondant au-delà du hasard (p <0,01), lignes de base contrastées non-DP montrant un rappel de 5 à 10 %.

Des implications plus larges s’étendent à l’IA d’entreprise. Avec DP, des modèles comme VaultGemma permet un apprentissage fédéré sur des données sensibles sans centralisation, dans le respect des lois tout en conservant son expressivité. L’utilitaire correspondant à une technologie non-DP âgée de cinq ans signale une maturation rapide ; les projections suggèrent la parité avec les références actuelles d’ici 2 à 3 ans via des lois affinées.

Des défis subsistent, notamment l’impact du bruit sur l’apprentissage en contexte long et les extensions multimodales. Pourtant, la version de VaultGemma démocratise l’IA privée, favorisant les innovations en matière de chatbots sécurisés, d’analyses anonymisées et d’outils de recherche éthiques. À mesure que l’empreinte sociétale de l’IA s’accroît, de tels modèles axés sur la confidentialité deviendront indispensables.