针对联邦学习的梯度泄露数据攻击与防御的研究

李钊华¹

扫码查看

作者信息

1. 广州大学
折叠

摘要

现如今，深度学习技术的优化与产业化步入高速发展阶段。深度学习模型的效能严重依赖于大量优质的训练数据，训练数据的数量和质量决定了深度学习技术应用效果的下限。联邦学习以保护用户和组织数据的隐私为初衷，提供了一种多方参与的联合深度学习框架，通过交换模型参数或梯度而不是本地数据来实现联合建模的目的。梯度泄露数据攻击可以通过参与方的共享梯度重构出本地数据，为联邦学习的隐私保护问题带来了新的挑战。在梯度泄露数据的攻击方面，目前的攻击研究难以适用于实际场景，例如无法重构重复率较高的目标样本标签，批大小规模大于48的目标样本特征，且所重构的样本与目标样本存在明显差异。在针对梯度泄露数据的防御方面，如常用的差分隐私等梯度扰动机制若要确保目标样本没有泄露，所添加的噪声强度对模型的测试准确率的负面影响过大，难以平衡隐私保护强度和模型可用性。为了解决上述所提问题，本文提出了如下针对攻击和防御两方面的新方法。（1）在梯度泄露数据的攻击方面，本文提出了一种端到端梯度反演（E2EGI）攻击方法。该方法构建了标签与梯度之间的约束关系，提出了一种新的仅依赖梯度信息的标签重构算法，可以在批样本标签重复率为96%的场景中实现81%的标签重构准确率，比现有的方法提高了27%。E2EGI中所设计的基于最小损失组合优化的正则化，从多组不同初始化的重构样本中组合实现最小梯度差异的样本组合，并对其他重构样本进行修正，能够重构出具有更高相似性的目标样本。基于分布式机器学习思想所设计的分布式梯度反演算法可以在深层网络模型ResNet-50和ImageNet数据集上实现批大小为8到256的梯度攻击。（2）在梯度泄露数据的防御方面，本文提出了一种基于标签的防御方法。通过降低参数、梯度和输入样本的非齐次线性方程组的系数矩阵的秩，增加了求解正确输入的难度，所设计的实验也论证了输入样本的标签对梯度攻击的成功起着关键作用。其中涉及到对标签重复率和顺序的特殊操作，相比较于差分隐私等其他防御方式，在取得相近的隐私保护效果下对模型的测试准确率影响最小，如在ResNet-18的模型训练任务中测试准确率只有2.3%的降幅，而其他方法至少会有9.78%的减幅。本文针对联邦学习中的梯度泄露数据攻击和防御的研究，能够支撑设计更安全的联邦学习框架。

关键词

数据攻击/深度学习/神经网络/联邦学习/差分隐私

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

方滨兴

学位年度

2023

学位授予单位

广州大学

语种

中文

中图分类号

段落导航