摘要
成员推理攻击的出现向人们展示了,仅通过访问模型接口就能有效推断样本是否参与模型训练,这对模型的隐私安全构成了极大威胁。目前,围绕如何抵抗成员推理攻击提出并实现了多种切实有效的防御方案。然而,现有的工作表明,这些防御方案中依然存在着诸多问题。一方面,大多数防御方案需要在模型训练过程中引入额外的超参数,超参数的确认无疑增加了防御成本,这使得防御方案难以得到应用部署;另一方面,目前大多数防御方法更加关注模型的效用,对模型的隐私安全考虑较小,这导致模型在平衡隐私与效用时,存在一定局限。本文通过对成员推理攻击防御方案的深入研究,以降低防御成本和平衡隐私与效用为目标,从优化模型训练的角度出发,设计高效可用的隐私保护方案。本论文的主要贡献可以概括为以下两点: (1)本文提出了一个降低训练成本的优化方案。通过深入分析损失目标对样本损失分布的影响,设计并实现了一个降低训练和测试样本损失差异的防御方案。该方案首先通过测试样本与目标模型的交互,得到测试样本的损失表现;其次,利用梯度上升和梯度下降,使训练样本主动学习测试样本的损失表现;最后,在预测阶段,在确保类别之间相对顺序不变的同时,使用随机的分数替换查询样本的分数,进一步降低黑盒场景中的隐私威胁。结合理论分析和实验验证,本方案在保障模型隐私与效用的同时显著降低了模型的防御成本。 (2)本文提出了一个有效平衡隐私与效用的防御方案。针对高效用场景中,通过低损失值确定的损失目标无法有效保障模型的隐私安全,设计了一个能有效缓解此问题的防御方案。该方案通过动态调整模型训练过程中的损失目标,使成员样本能够实时学习非成员样本的最新表现;其次,利用知识蒸馏技术,在保证模型正常训练的同时,使成员样本损失能够损失围绕损失目标进行分布;最后,在预测阶段,通过增大softmax函数的温度,使大部分黑盒场景中的攻击接近失效。广泛的实验评估表明,本方案在高效用场景中进一步实现了模型隐私与效用的平衡。