摘要
深度神经网络在现今所设置的各种学习任务之中都展现出了优异的表现,以及前所未有的通用性,其已经成功应用在了包括但不限于文字识别、汽车自动驾驶、语音识别等等领域。然而,在传统的集中式机器学习的发展过程之中仍然存在着阻碍其发展的问题,也就是个人隐私保护的问题。 集中式机器学习需要每一个模型训练的参与方将其个人隐私数据交给模型的训练方,然后由训练方对这些数据进行预处理以及打标签,最后制作成统一数据集进行模型的训练,但是将隐私数据交给第三方本就是高风险的行为。所以在2017年联邦学习框架被提出,其可以实现多个数据持有方在确保其本地数据不出库的情况下共同完成同一个神经网络模型的训练,只需要通过模型参数的聚合就能完成相当于数据集中的效果。 但是近年来研究人员发现,在联邦学习框架中,本地客户端在使用其本地隐私数据对模型进行训练时,模型会无意中记住其用于训练的私有隐私数据的细节信息,并且联邦学习的聚合过程需要本地用户上传其模型参数,使得模型仍然有受到成员推理攻击导致用户个人隐私数据泄露的风险。 现如今,针对联邦学习框架的现有的成员推理攻击方法效果较差,所以本着研究攻击方法是为了更好的对其进行防御的理念,本论文从以下两个方面展开了研究,并在以下两个方面取得了创新性成果: (1)在联邦学习框架中设计了一种被动成员推理攻击方法,在该方法中本论文考虑了当攻击者作为中央服务器以及当攻击者作为本地客户端的情况,该方法通过诱导目标用户往其数据集中注入有毒数据,使模型可以最大程度地记住目标类隐私数据的细节信息,致使数据的细节信息通过模型的输出结果被泄露出来。在本论文设计的攻击方法中,该方法通过使用联邦学习中多个训练轮次所获得的参数信息,然后利用AdaBoost分类器从中学习细节信息。最后使用不同的阈值对AdaBoost分类器输出的预测置信度分数进行划分从而得出数据的成员以及非成员信息。本论文使用了CIFAR10、CIFAR100、MNIST等多个主流的数据集以及ResNet18、AlexNet等多个主流模型进行了实验,均获得了很好的实验效果。 (2)在联邦学习框架中设计了一种主动成员推理攻击方法,在该方法中,中央服务器被设定为攻击者,其通过主动干涉整个联邦学习框架的训练流程来发起攻击。通过将带毒的模型参数混入到全局模型之中,然后通过提取目标本地客户端上传的模型参数,用于生成序列置信度数据,最后利用AdaBoost分类器提取出模型中所隐含隐私数据细节信息完成攻击。本论文也使用了CIFAR10、CIFAR100、MNIST等多个主流的数据集以及ResNet18、AlexNet等多个主流模型进行了实验,并进行了相关的分析。