8.8 C
New York

Confidentialité différentielle distribuée pour l’apprentissage fédéré – Google AI Weblog


Apprentissage fédéré est une manière distribuée de former des modèles d’apprentissage automatique (ML) où les données sont traitées localement et où seules les mises à jour et les métriques de modèle ciblées destinées à une agrégation immédiate sont partagées avec un serveur qui orchestre la formation. Cela permet la formation de modèles sur des signaux disponibles localement sans exposer les données brutes aux serveurs, augmentant ainsi la confidentialité des utilisateurs. En 2021, nous avons annoncé que nous utilisons l’apprentissage fédéré pour former Sélection de texte intelligente fashions, une fonctionnalité Android qui aide les utilisateurs à sélectionner et à copier facilement du texte en prédisant le texte qu’ils souhaitent sélectionner, puis en élargissant automatiquement la sélection pour eux.

Depuis ce lancement, nous avons travaillé pour améliorer les garanties de confidentialité de cette technologie en combinant soigneusement agrégation sécurisée (SecAgg) et une model distribuée de la confidentialité différentielle. Dans cet article, nous décrivons remark nous avons construit et déployé le premier système d’apprentissage fédéré qui fournit des garanties formelles de confidentialité à toutes les données des utilisateurs avant qu’elles ne deviennent visibles pour un serveur honnête mais curieux, c’est-à-dire un serveur qui swimsuit le protocole mais pourrait essayer de gagner informations sur les utilisateurs à partir des données qu’il reçoit. Les modèles de sélection intelligente de texte formés avec ce système ont réduit la mémorisation de plus du double, tel que mesuré par les méthodes de take a look at empiriques commonplace.

Mise à l’échelle de l’agrégation sécurisée

La minimisation des données est une confidentialité importante principe derrière l’apprentissage fédéré. Cela fait référence à une collecte de données ciblée, à une agrégation précoce et à une conservation minimale des données requises pendant la formation. Alors que chaque appareil participant à un cycle d’apprentissage fédéré calcule une mise à jour de modèle, le serveur d’orchestration ne s’intéresse qu’à leur moyenne. Par conséquent, dans un monde optimisé pour la minimisation des données, le serveur n’apprendrait rien sur les mises à jour individuelles et ne recevrait qu’une mise à jour globale du modèle. C’est précisément ce que réalise le protocole SecAgg, sous des garanties cryptographiques rigoureuses.

Importantes pour ce travail, deux avancées récentes ont amélioré l’efficacité et l’évolutivité de SecAgg chez Google :

  • Un protocole cryptographique amélioré : Jusqu’à récemment, un goulot d’étranglement vital dans SecAgg était le calcul des purchasers, automobile le travail requis sur chaque appareil évoluait de manière linéaire avec le nombre whole de purchasers (N) participant au tour. Dans le nouveau protocolele calcul du consumer évolue maintenant de manière logarithmique dans N. Ceci, associé à des positive factors similaires en termes de coûts de serveur, se traduit par un protocole succesful de gérer des rondes plus importantes. Avoir plus d’utilisateurs participant à chaque tour améliore la confidentialité, à la fois empiriquement et formellement.
  • Orchestration consumer optimisée : SecAgg est un protocole interactif, où les appareils individuals progressent ensemble. Une caractéristique importante du protocole est qu’il est robuste à certains appareils qui abandonnent. Si un consumer n’envoie pas de réponse dans une fenêtre temporelle prédéfinie, le protocole peut continuer sans la contribution de ce consumer. Nous avons déployé des méthodes statistiques pour régler automatiquement et efficacement une telle fenêtre temporelle de manière adaptative, ce qui a permis d’améliorer le débit du protocole.

Les améliorations ci-dessus ont rendu plus facile et plus rapide l’apprentissage de la sélection de texte intelligente avec des garanties de minimisation des données plus solides.

Tout agréger through une agrégation sécurisée

Un système de formation fédéré typique implique non seulement l’agrégation des mises à jour du modèle, mais également des mesures qui décrivent les performances de la formation locale. Celles-ci sont importantes pour comprendre le comportement du modèle et déboguer les problèmes de formation potentiels. Dans la formation fédérée pour la sélection intelligente de texte, toutes les mises à jour et métriques du modèle sont agrégées through SecAgg. Ce comportement est affirmé statiquement en utilisant TensorFlow fédéréet appliqué localement dans Android Cœur de calcul privé environnement sécurisé. Par conséquent, cela améliore encore plus la confidentialité pour les utilisateurs qui s’entraînent à la sélection intelligente de texte, automobile les mises à jour et les métriques de modèle non agrégées ne sont visibles par aucune partie de l’infrastructure du serveur.

Confidentialité différentielle

SecAgg aide minimiser l’exposition des données, mais cela ne produit pas nécessairement des agrégats qui garantissent de ne rien révéler d’distinctive à un individu. C’est ici que confidentialité différentielle (DP) entre en jeu. DP est un cadre mathématique qui fixe une limite à l’affect d’un individu sur le résultat d’un calcul, comme les paramètres d’un modèle ML. Ceci est accompli en limitant la contribution de tout utilisateur individuel et en ajoutant du bruit pendant le processus de formation pour produire une distribution de probabilité sur les modèles de sortie. DP est livré avec un paramètre (ε) qui quantifie le degré de modification de la distribution lors de l’ajout ou de la suppression des exemples d’entraînement d’un utilisateur individuel (plus il est petit, mieux c’est).

Récemment, nous a annoncé une nouvelle méthode de formation fédérée qui applique des garanties DP formelles et significativement solides de manière centralisée, où un serveur de confiance contrôle le processus de formation. Cela protège contre les attaquants externes qui pourraient tenter d’analyser le modèle. Cependant, cette approche repose toujours sur la confiance dans le serveur central. Pour fournir des protections de confidentialité encore plus importantes, nous avons créé un système qui utilise la confidentialité différentielle distribuée (DDP) pour appliquer la DP de manière distribuée, intégrée au protocole SecAgg.

Confidentialité différentielle distribuée

DDP est une technologie qui offre des garanties DP par rapport à un serveur honnête mais curieux qui coordonne la formation. Cela fonctionne en faisant en sorte que chaque appareil participant coupe et bruit sa mise à jour localement, puis agrège ces mises à jour coupées bruyantes through le nouveau protocole SecAgg décrit ci-dessus. Par conséquent, le serveur ne voit que la somme bruyante des mises à jour tronquées.

Cependant, la combinaison de l’ajout de bruit native et de l’utilisation de SecAgg présente des défis importants dans la pratique :

  • Une méthode de discrétisation améliorée : Un défi consiste à représenter correctement les paramètres du modèle sous forme d’entiers dans le groupe fini de SecAgg avec une arithmétique modulaire entière, ce qui peut gonfler la norme du modèle discrétisé et nécessiter plus de bruit pour le même niveau de confidentialité. Par exemple, un arrondi aléatoire aux nombres entiers les plus proches pourrait gonfler la contribution de l’utilisateur d’un facteur égal au nombre de paramètres du modèle. Nous avons résolu ce problème en mettant à l’échelle les paramètres du modèle, en appliquant une rotation aléatoire et en arrondissant aux nombres entiers les plus proches. Nous avons également développé une approche pour ajuster automatiquement l’échelle de discrétisation pendant l’apprentissage. Cela a conduit à une intégration encore plus efficace et précise entre DP et SecAgg.
  • Ajout de bruit discret optimisé : Un autre défi consiste à concevoir un schéma permettant de choisir un nombre arbitraire de bits par paramètre de modèle sans sacrifier les garanties de confidentialité de bout en bout, qui dépendent de la façon dont les mises à jour du modèle sont écrêtées et bruitées. Pour résoudre ce problème, nous avons ajouté du bruit entier dans le domaine discrétisé et analysé les propriétés DP des sommes de vecteurs de bruit entier à l’aide de la méthode Gaussienne discrète distribuée et Skellam distribué mécanismes.
Un aperçu de l’apprentissage fédéré avec confidentialité différentielle distribuée.

Nous avons testé notre answer DDP sur une variété d’ensembles de données de référence et en manufacturing et avons validé que nous pouvons faire correspondre la précision au DP central avec un groupe fini SecAgg de taille 12 bits par paramètre de modèle. Cela signifie que nous avons pu obtenir des avantages supplémentaires en matière de confidentialité tout en réduisant la mémoire et la bande passante de communication. Pour le démontrer, nous avons appliqué cette technologie pour entraîner et lancer des modèles de sélection intelligente de texte. Cela a été fait avec une quantité appropriée de bruit choisie pour maintenir la qualité du modèle. Tous les modèles Good Textual content Choice formés avec l’apprentissage fédéré sont désormais accompagnés de garanties DDP qui s’appliquent à la fois aux mises à jour du modèle et aux métriques vues par le serveur pendant la formation. Nous avons aussi open supply l’implémentation dans TensorFlow Federated.

Exams empiriques de confidentialité

Bien que DDP ajoute des garanties formelles de confidentialité à la sélection intelligente de texte, ces garanties formelles sont relativement faibles (un nombre fini mais vital ε, par centaines). Cependant, tout fini ε est une amélioration par rapport à un modèle sans garantie formelle de confidentialité pour plusieurs raisons : 1) Un ε déplace le modèle dans un régime où d’autres améliorations de la vie privée peuvent être quantifiées ; et 2) même grand ε‘s peut indiquer un substantiel diminution de la capacité à reconstruire les données d’entraînement du modèle entraîné. Pour obtenir une compréhension plus concrète des avantages empiriques de la vie privée, nous avons effectué des analyses approfondies en appliquant le framework Secret Sharer aux modèles de sélection intelligente de texte. Secret Sharer est une approach d’audit de modèle qui peut être utilisée pour mesurer le degré auquel les modèles mémorisent involontairement leurs données d’entraînement.

Pour effectuer des analyses Secret Sharer pour la sélection intelligente de texte, nous avons mis en place des expériences de contrôle qui collectent des gradients à l’aide de SecAgg. Les expériences de traitement utilisent des agrégateurs de confidentialité différentiels distribués avec différentes quantités de bruit.

Nous avons constaté que même de faibles quantités de bruit réduisaient la mémorisation de manière significative, faisant plus que doubler la métrique de classement Secret Sharer pour les canaris pertinents par rapport à la ligne de base. Cela signifie que même si le DP ε est grand, nous avons vérifié empiriquement que ces quantités de bruit contribuent déjà à réduire la mémorisation pour ce modèle. Cependant, pour améliorer encore cela et obtenir des garanties formelles plus solides, nous visons à utiliser des multiplicateurs de bruit encore plus grands à l’avenir.

Prochaines étapes

Nous avons développé et déployé le premier système d’apprentissage fédéré et de confidentialité différentielle distribuée qui s’accompagne de garanties DP formelles par rapport à un serveur honnête mais curieux. Tout en offrant des protections supplémentaires substantielles, un serveur entièrement malveillant pourrait toujours être en mesure de contourner les garanties DDP soit en manipulant l’échange de clé publique de SecAgg, soit en injectant un nombre suffisant de « fake » purchasers malveillants qui n’ajoutent pas le bruit prescrit dans le pool d’agrégation. Nous sommes ravis de relever ces défis en continuant à renforcer la garantie DP et sa portée.

Remerciements

Les auteurs tiennent à remercier Adria Gascon pour son affect significatif sur le weblog lui-même, ainsi que les personnes qui ont aidé à développer ces idées et à les mettre en pratique : Ken Liu, Jakub Konečný, Brendan McMahan, Naman Agarwal, Thomas Steinke, Christopher Choquette , Adria Gascon, James Bell, Zheng Xu, Asela Gunawardana, Kallista Bonawitz, Mariana Raykova, Stanislav Chiknavaryan, Tancrède Lepoint, Shanshan Wu, Yu Xiao, Zachary Charles, Chunxiang Zheng, Daniel Ramage, Galen Andrew, Hugo Track, Chang Li, Sofia Neata, Ananda Theertha Suresh, Timon Van Overveldt, Zachary Garrett, Wennan Zhu et Lukas Zilka. Nous tenons également à remercier Tom Small pour la création de la determine animée.

Related Articles

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici

Latest Articles