摘要
传统的深度学习使用集中式训练的方式来训练模型,这样不可避免地会产生隐私泄露的风险。此外,由于法律法规等限制,数据拥有者之间不能直接共享数据来训练模型,这导致了数据孤岛问题的存在。为了解决集中式深度学习中数据隐私泄露和数据孤岛的问题,谷歌提出了一种分布式深度学习框架,即联邦学习。联邦学习能够在不共享本地数据的情况下协同训练模型,从而保护数据隐私。然而,现有研究表明,攻击者可以从上传的梯度中恢复隐私信息,同时也可能会伪造云服务器返回的聚合结果,并将其发送给数据拥有者,进而导致模型训练结果不可用。另一方面,攻击者也可能通过自适应选择消息攻击或者伪造身份来破坏系统的稳定性。现有的很多方案中也存在数据拥有者必须同时在线训练模型或难以抵抗共谋攻击等问题。 针对上述联邦学习环境中存在的问题,本文对此展开了深入的研究。本文的主要研究内容如下: (1)针对联邦学习环境中梯度聚合结果不可信等问题,提出了一种安全聚合的联邦学习隐私保护方案。该方案采用了双线性聚合签名算法和同态哈希函数相结合的方式,实现了在联邦学习环境下对梯度聚合结果的验证,并且可以有效地防止攻击者将伪造的梯度聚合结果发送给数据拥有者的行为。另一方面,该方案还采用了阈值Paillier加密算法,保证了数据拥有者上传的梯度信息不被泄露。此外,由于加密算法的阈值特性,该方案对于数据拥有者在训练过程中退出的行为具有健壮性并且可以抵抗少于T个数据拥有者之间的共谋。 (2)针对联邦学习环境中攻击者可能通过伪造身份进入系统等问题,提出了一种身份可验证的联邦学习隐私保护方案。该方案采用了一种可批量验证身份的签名算法,实现了对数据拥有者身份真实性的验证,并且可以有效地抵抗自适应选择消息攻击和身份伪造攻击,保证了系统的稳定运行。另一方面,该方案同样采用了阈值Paillier加密算法来确保联邦学习训练过程中梯度安全性、训练可退出性以及抗共谋性等安全属性。 本文从理论上分析了上述两种方案的安全性,并在真实数据集上进行了方案的模拟,验证了上述方案的正确性以及安全性。此外,还与现有的一些方案在功能性方面进行了对比,结果表明本文提出的方案在功能性方面更具优势。