摘要
对抗样本的存在给深度学习模型的安全性带来了严重威胁,因此设计对抗防御算法以提升模型的鲁棒性至关重要。目前主流的防御方法可以分为主动防御和被动防御,对于以对抗训练为代表的主动防御机制而言,其缺点在于训练效率较低,并且由于训练使用的是脱离数据集流形区域的对抗样本,因此会影响模型的识别准确率。对于以基于样本重构的防御方法为代表的被动防御机制而言,由于难以准确绘制数据集的流形结构,因此在面临新的对抗攻击算法或者对抗扰动系数较小的情况下其防御效果有限。 针对上述问题,在主动防御机制层面,本文提出了基于潜在空间替代模型的流形对抗样本生成算法(OmAdv-LS)用于进行对抗训练。该算法通过自编码器学习数据集的流形结构,并且在自编码器的基础上训练一个潜在空间替代模型,可以搜索处于数据集流形区域上的对抗样本并有效提高搜索效率,生成的流形对抗样本用于对抗训练能够显著降低目标模型对于原始数据集识别准确率的影响。同时,本文提出了梯度解码策略及置信度重排序策略,能够有效降低OmAdv-LS在搜索过程中添加的对抗扰动。实验结果显示,OmAdv-LS算法用于对抗训练相比于其他对抗攻击算法取得了更好的效果,训练开销要明显小于基于迭代的对抗攻击算法,并且在有效提升模型防御鲁棒性的同时,在MNIST数据集上对于原始数据集的识别准确率反而上升了0.31%,在CIFAR-10数据集上也仅下降了1.37%,远低于PGD-AT的12.29%。 在上述研究工作的基础上,本文提出了基于鲁棒性低频特征流形结构的样本重构算法(RLM),该算法属于被动防御机制。通过将对抗样本的频域特征与流形理论假设相结合,通过自编码器获取数据集的低频特征流形结构作为鲁棒性特征,与目标模型的特征层输出的比对结果指导样本重构,以重构误差来甄别对抗样本。对于现有重构算法无法准确绘制数据集流形结构的问题,本文提出了预测概率转换策略,通过高效扩展正负样本进行训练,有效提高AE绘制的流形结构的准确性。实验结果表明,RLM在绝大多数场景下对于对抗样本的检测准确率要比现有的样本重构防御算法表现更佳,能够有效防御已知的甚至是未知的对抗攻击算法。