摘要
随着深度学习技术的不断发展,深度神经网络在图像识别和分类任务中展现出了优秀性能。但是研究表明智能图像识别网络容易受到对抗样本的误导从而产生错误的决策。对抗样本分为像素域对抗样本和区域限定对抗样本,它们分别在整个干净样本、限定区域上叠加对抗扰动。智能系统的安全性提升需要针对对抗攻击进行检测。检测性防御工作中,提升检测模型的有效性和泛化性是研究重点。本文分别从像素域对抗样本和区域限定对抗样本两个角度展开对抗样本检测方法研究。本文的主要工作如下: (1)针对检测模型面对未知对抗攻击缺乏有效性和泛化性的问题,提出了基于全局特征和局部特征融合的双支路对抗样本检测方法(ASD-GLF)。在全局特征检测支路上,针对传统空间映射方法敏感度不足、数值溢出等问题,提出了扩充映射方法和基于温度系数控制的预测向量软化方法,增强了全局特征的显著性;在局部特征检测支路上,针对传统方法不能直接从对抗样本上提取具有鲜明区分度的局部特征问题,采用了基于JPEG压缩和误差级别分析(ELA)的预处理方法,经过预处理后的对抗样本具有明显区别于干净样本的SIFT特征分布的差异现象。通过多种对抗攻击数据集及泛化性测试,结果表明,与SRM、PACA等经典对抗检测算法相比,ASD-GLF方法能够取得近似的检测准确率和更好的泛化性能。 (2)针对区域限定对抗样本的检测问题,提出了基于迁移学习的对抗样本检测方法(MTL)。MTL中采用自适应平均池化和小尺寸卷积核卷积结合的操作,有效保证检测模型在不牺牲识别精度情况下自动适应多种输入分辨率。在多个输入分辨率和多个经典神经网络的组合条件下,MTL方法在真实数据集上能够达到99.48%的平均对抗样本检测准确率,表明其具有较强的适用性和泛化性。 上述方法已通过实验验证。实验结果显示,ASD-GLF方法和MTL方法能够有效提升针对像素域对抗样本和区域限定对抗样本的检测精度和泛化性能。