摘要
深度学习在众多领域取得了巨大成功。然而,其强大的数据拟合能力隐藏着不可解释的“捷径学习”现象,从而引发深度模型脆弱、易受攻击的安全隐患。众多研究表明,攻击者向正常数据中添加人类无法察觉的微小扰动,便可能造成模型产生灾难性的错误输出,这严重限制了深度学习在安全敏感领域的应用。对此,研究者提出了各种对抗性防御方法。其中,最有效的方法可以概括为对抗训练方法与对抗性净化方法。基于此,本文的主要研究内容和创新点如下: 1.提出了图像-特征双重对抗训练方法(ISDAT),用于提升图像分类模型的鲁棒性。针对标准对抗训练生成的对抗样本多样性不足的问题,该方法首先在对抗训练的内部循环中设计了图像与特征两条路径,并分别使用了不同的损失函数来计算梯度,最终得到相应的对抗性扰动;其次,该方法在对抗训练的外部循环中提出了图像-特征双重引导的防御算法,并设计了图像-特征感知损失,建立了端到端的优化过程。最后,该方法在三种数据集上与多种对比方法进行了一系列的白盒和黑盒攻击的对比实验,证明了该方法的有效性,并通过四种消融实验证明了该方法的合理性。 2.提出了基于扩散模型的对抗性净化方法(DRSOD),用于提升显著性目标检测模型的鲁棒性,并弥补 ISDAT 中存在的某些不足。具体来说,针对 ISDAT 训练时间过长、对于大型数据集或复杂任务效果不好的问题,该方法基于预训练的扩散模型,在模型测试阶段去噪,因此不需要重新训练目标模型,且可以无视数据集或下游任务的复杂程度。此外,该方法与对抗训练内部攻击结合,将受到强攻击后的原始样本作为扩散模型的输入。在这种强扰动的驱使下,可以使扩散模型正向加噪的扰动忽略不计,有利于反向净化恢复更纯净的图像,从而能够抵挡基于梯度的更强攻击。最后,该方法在四种数据集和六种评估指标下进行的对比实验证明了其有效性,净化后的样本与对抗样本的可视化对比图证明了DRSOD的合理性。 3.提出了基于双对抗训练的遥感图像鲁棒性分类方法(RS2AT),旨在缓解遥感图像的低质量问题,并提升遥感场景分类模型的鲁棒性。DRSOD 虽然能弥补 ISDAT 的部分不足,但是依然存在保留原始语义与净化去噪之间的权衡问题。此外,由于不需要重新训练模型,DRSOD 无法精准贴合我们的具体需求。基于此,该方法对ISDAT继续改进,将其能够应用于大型数据集和复杂的场景分类任务,并且更具现实意义。具体来说,为了缓解遥感图像中存在的非人为扰动导致其质量低的问题,该方法基于 ISDAT的内部双重攻击,将其进一步扩展到l2的半径范围,通过模拟上述非人为扰动对遥感图像进行数据扩充。然后,使用 ISDAT 设计的图像-特征感知损失来更新模型。最后,RS2AT 在两种数据集上的数据扩充可视化图和对比实验证明了其合理性与有效性。