L'équipe de recherche de Google annonce le lancement deNouveau modèle VaultGemma, se présentant comme le modèle linguistique à grande échelle le plus puissant actuellement disponible, entièrement formé de zéro et protégé par la confidentialité différentielle (DP). Les pondérations du modèle sont publiées simultanément sur les plateformes Hugging Face et Kaggle, permettant aux développeurs et aux universitaires de les utiliser, de les vérifier et de les améliorer librement.

Avec la généralisation de l'IA générative, la protection de la vie privée est devenue un enjeu crucial dans le développement de l'IA. La confidentialité différentielle réduit le risque que les modèles mémorisent des données individuelles en introduisant du « bruit » lors de l'apprentissage. Cependant, cela présente également des défis tels qu'une stabilité d'apprentissage réduite, une taille de lot accrue et des coûts de calcul accrus.
Google a déclaré que la recherche menée en collaboration avec DeepMind a établi pour la première fois des « lois de mise à l'échelle du modèle de confidentialité différentiel », qui peuvent prédire avec précision la configuration de formation optimale sous différents budgets de calcul, de confidentialité et de données, devenant un guide important pour la formation de modèles de confidentialité différentiels hautes performances.

VaultGemma est une nouvelle version basée sur Gemma 10, conçue avec un milliard de paramètres. Grâce à des expériences systématiques, l'équipe de recherche de Google a quantifié la relation entre la taille du modèle, le nombre d'itérations d'entraînement et le rapport bruit, et a conclu que la stratégie optimale pour un entraînement différentiellement privé consiste à utiliser des modèles plus petits avec des lots plus importants. Cette stratégie permet à VaultGemma d'atteindre des performances proches de celles des modèles non privés tout en préservant une confidentialité accrue, avec des performances comparables à celles des modèles non différentiellement privés d'il y a cinq ans.
Techniquement, VaultGemma utilise un algorithme DP-SGD évolutif et une méthode d'échantillonnage de Poisson améliorée pour garantir une taille de lot constante tout en préservant de solides garanties de confidentialité. Le modèle obtenu atteint une confidentialité différentielle au niveau de la séquence (ε ≤ 2.0, δ ≤ 1.1e-10), garantissant que même si un seul exemple d'entraînement est interrogé, il est pratiquement impossible pour le modèle de le reproduire. Google a également effectué des tests de mémorisation, qui ont montré que VaultGemma ne « valide » pratiquement aucune donnée d'entraînement.

Google a constaté que, même si les performances des modèles différentiellement privés restent légèrement inférieures à celles des versions entièrement non privées, l'écart s'est réduit et des pistes de recherche claires permettent de les améliorer. VaultGemma démontre non seulement l'engagement à long terme de Google en faveur de la protection de la vie privée, mais fournit également une référence reproductible et vérifiable pour l'industrie et le monde universitaire, favorisant ainsi le développement de la prochaine génération d'IA axée sur la confidentialité.

Pour les développeurs, la sortie de VaultGemma propose non seulement des modèles pré-entraînés, mais également un rapport technique complet et des recommandations d'optimisation, permettant aux entreprises et aux équipes de recherche d'adapter leurs modèles à leurs besoins informatiques et de confidentialité. Ainsi, à l'avenir, nous pouvons nous attendre à voir davantage d'entreprises adopter l'IA, réduisant ainsi les risques pour la confidentialité, répondant aux exigences réglementaires et protégeant les données des utilisateurs, tout en bénéficiant de modèles hautes performances.
Enfin, Google a souligné que Vault Gemma n'était qu'une première étape. À l'avenir, la société continuera d'améliorer le mécanisme d'entraînement différentiel à la confidentialité, d'optimiser les performances et d'abaisser le seuil de calcul, afin que l'IA « à la fois sûre et intelligente » devienne la norme sur le marché.
Comparaison des paramètres et des performances de VaultGemma, de Gemma non différentiellement privé et des premiers modèles GPT-2 :
| Modèle | VaultGemma 1B | Gemma 3 1B | GPT-2 1.5B |
| Échelle des paramètres | 10 milliards de paramètres | 10 milliards de paramètres | 15 milliards de paramètres |
| la protection de la vie privée | Intimité différentielle (ε ≤ 2.0, δ ≤ 1.1e-10) | Pas de confidentialité différentielle | Pas de confidentialité différentielle |
| Méthodes de formation | Optimisation de l'échantillonnage DP-SGD + Poisson | Formation standard non-DP | Formation traditionnelle non DP en grands lots |
| Performances (par rapport aux modèles non DP) | Proche du modèle non-DP d'il y a 5 ans (même niveau que GPT-2) | Légèrement supérieur à VaultGemma | Inférieur aux modèles modernes non-DP, mais similaire à VaultGemma |
| Risque lié à la mémoire des données | Presque aucune mémorisation n'est détectée | Il y a un certain risque de mémorisation | Risque élevé de mémorisation (vérifié à plusieurs reprises) |
| Statut de la version | Publié, open source (Hugging Face et Kaggle) | Publié, open source | Modèles historiques, accessibles au public en téléchargement |







