摘要
随着时代的发展,机器学习已经成为了推动技术进步和创新的关键力量。由于数据量的爆炸性增长和隐私保护意识的提高,传统的机器学习面临着严峻挑战。它通常要求将数据集中到一个中心节点进行处理和分析,不仅增加了数据传输的成本,也提高了数据被泄露或者滥用的风险,引发了人们对数据隐私和安全的严重担忧。 为了解决这些问题,联邦学习应运而生,它允许多个参与者共同训练模型而无需共享数据,从而在保护隐私的同时实现知识共享。它的核心思想是将模型的训练过程分发到多个参与方上,每个参与方利用自己的数据局部训练模型,之后将局部模型更新(而非原始数据)发送到中央服务器。中央服务器聚合这些更新以改进全局模型,并将改进的模型返还给参与方。这个过程反复进行,直到模型达到预期的性能。虽然联邦学习与传统的集中式学习相比在隐私保护方面具有很大优势,但仍然面临一系列的隐私性和安全性的挑战。这些挑战包含模型和数据隐私的保护,以及如何抵抗恶意参与方发起的攻击,例如投毒攻击和后门攻击等。为了解决联邦学习中面临的隐私威胁和安全性威胁,本文提出了两个在保护模型隐私的同时可以有效抵御后门攻击的联邦学习方案: 1.提出了一个可以提供可认证后门鲁棒性的联邦学习方案(CFLRS)。首先将GAN引入联邦学习框架,用生成器和鉴别器来学习用户本地的数据分布,并将生成器参数代替模型参数上传到中心服务器,保护了模型的隐私。同时有效的减少了中心服务器和本地用户之间的交互次数,降低了通信开销。其次,为了抵御后门攻击,将随机平滑引入本地模型的训练过程,设计了一个可认证的鲁棒性的联邦学习方案。在服务器是半诚实,且用户存在恶意攻击者的情况下,有效的抵御了后门攻击,同时在一定程度上保护了用户的隐私。之后,提供了可认证鲁棒性的理论证明,在MNIST、FMNIST以及EMNIST数据集上的实验结果表明,同其他可认证鲁棒性方案相比,该方案可以在恶意攻击者比例较高的情况下仍保持良好的性能。 2.提出了一个基于同态加密的可认证鲁棒性联邦学习方案(CFLRS-THE)。在考虑恶意用户对模型实施后门攻击的基础上,进一步考虑数据传输过程中可能存在的隐私泄露问题。利用同态加密来保护用户上传参数的隐私,设计了一个双陷门同态加密方案,将模型参数以密文的形式上传服务器,实现了更高级别的隐私保护。在MNIST、FMNIST和SVHN数据集上的测试结果表明,该方案在保护隐私的同时没有对模型精度造成损失。