联邦学习的公平性与隐私保护研究与实现

王天琪¹

扫码查看

作者信息

1. 重庆大学
折叠

摘要

在大数据时代背景下，机器学习技术在提升数据利用率的同时也造成了严重的隐私泄露问题。联邦学习作为一种能有效解决机器学习隐私泄露问题的机器学习框架，能在保护用户隐私信息、遵守法律法规的同时，充分利用全球各地设备上的碎片化数据对机器学习模型进行训练和优化，因此被广泛应用于金融、医疗、信息技术等领域。然而，最近研究表明联邦学习存在严重的公平性缺失和梯度隐私泄露问题。一方面，数据异构性会导致训练生成的模型无法公平地为每位用户提供服务，甚至对数据量少质差的用户产生歧视。另一方面，攻击者通过推理攻击和反转攻击，获取梯度数据中包含的数据特征，进而对用户隐私进行挖掘，将使联邦学习对用户隐私的保护成为空谈。为解决上述问题，本文开展联邦学习的公平性和隐私保护相关研究，研究内容如下: （1）针对联邦学习不公平问题，本文提出了一种基于客户端采样策略与梯度投影的联邦学习算法。该算法将联邦学习的模型训练过程分为预训练和正式训练两阶段，其中预训练中客户端采样策略用于解决外部冲突，而正式训练中梯度投影算法解决内部冲突。通过解决联邦学习训练过程中的内外冲突，在确保全局模型准确性的前提下，提高联邦学习模型的公平性，同时降低通信成本。（2）针对联邦学习的隐私保护问题，提出了一种基于差分隐私的公平安全联邦学习算法。该算法提出基于客户端数据量设置隐私预算的方法，该方法在客户端训练局部模型时将噪声添加至梯度并根据梯度变化率调整隐私预算，使其隐私安全得到保护。通过合理设置隐私预算，使联邦学习模型在准确性、公平性和隐私安全性之间达到平衡。（3）针对现有联邦学习框架平台门槛高、上手难的问题，设计实现了一个在线联邦学习实验平台原型，该平台目前主要面向研究联邦学习公平性和隐私保护的研究人员，旨在创建一个开源且用户友好的实验平台，使研究人员能够轻松地开展联邦学习研究。综上所述，本文的研究内容对解决联邦学习的公平性缺失和梯度隐私泄露问题提供了有价值的研究方案，对促进联邦学习的发展和应用具有重要意义。

关键词

差分隐私/梯度泄漏/数据异构/联邦学习/公平性

引用本文复制引用

授予学位

硕士

学科专业

电子信息

导师

胡春强

学位年度

2023

学位授予单位

重庆大学

语种

中文

中图分类号

段落导航