摘要
随着基于深度学习的图像分类模型广泛应用,在人脸识别、自动驾驶、医学图像处理等众多场景中出现了对抗样本攻击,使人工智能安全问题凸显。对抗样本攻击通过给干净样本添加微小的扰动,导致模型产生错误输出,将给安全要求高的系统造成难以估计的损失。为了保护图像分类模型免受对抗样本攻击的威胁,已有研究提出多种对抗样本防御方法。其中,鲁棒性优化方法旨在增强模型的鲁棒性,使模型在受到对抗样本干扰时仍产生正确的输出,在防御对抗样本攻击方面具有较高的有效性。因此,研究面向图像分类的对抗鲁棒性优化,有助于提升人工智能系统的安全性能,具有较高的社会意义和应用价值。 鲁棒性优化通过更好地求解min-max优化问题使模型获得对抗鲁棒性,对抗训练是鲁棒性优化的主流方法之一。基于对抗训练的鲁棒性优化方法存在两个问题:一是只能防御特定的攻击方法,难以应对多种对抗攻击;二是需要大量的训练数据。针对这两个问题,本文研究面向图像分类的语义增强对抗鲁棒性优化方法,从语义信息作用分析、语义信息提取、对抗训练样本筛选和对抗训练方法四个方面,以语义信息作用分析为可行性前提,以语义信息提取和训练样本筛选为基础,提出语义增强的区域对抗训练方法,提升鲁棒性优化的效果。具体地,本文的主要研究工作包括以下四个部分: (1)基于图像分割的语义信息作用分析 针对使用语义增强进行鲁棒性优化的可行性问题,本文基于图像分割分析语义信息对提升模型对抗鲁棒性的作用。该研究提出一种改进的单像素攻击方法,比较了图像分割后语义重要性不同的区域在对抗鲁棒性上的差异。相对于已有研究,该研究充分地探索了对抗样本在像素空间的分布,明确了语义信息对鲁棒性优化的作用,是后续基于语义增强研究鲁棒性优化方法的基础和前提。 (2)基于通用对抗扰动生成的语义信息提取 针对对抗扰动语义信息缺失问题,本文提出一种目标通用对抗扰动生成算法,用于提取被模型遗漏的语义信息。该方法在迭代计算中,持续将扰动向量推向特定目标类的区域,捕获对多个样本通用的脆弱点,提取与目标类概念相关的遗漏语义信息。实验结果表明,所提算法的语义信息提取效果优于几种目前流行的对抗扰动生成方法。该方法生成的扰动可以为对抗训练提供对抗样本,并作为载体,向训练过程注入语义信息。此外,也可以作为一种新的对抗攻击方法,应用于目标对抗攻击场景。 (3)基于图像统计特征的对抗训练样本筛选 针对对抗训练中无效攻击样本多的问题,本文提出一种基于图像统计特征的对抗训练样本筛选方法。该方法不需要优化对抗攻击算法本身,只需要通过简单的统计特征,就可以在攻击前剔除扰动难度大的样本,提高攻击成功率,减少无效计算和无效对抗训练样本。实验结果表明,所提方法可有效剔除无效攻击样本。本方法可在使用通用对抗样本进行对抗训练时,缩减训练所需样本量,也可以为提升其他对抗攻击成功率提供参考。 (4)基于语义增强区域对抗训练的鲁棒性优化 针对鲁棒性优化难以应对多种攻击和样本需求量大的两个问题,基于上述的语义信息提取方法和对抗训练样本筛选方法,本文提出了一种语义信息增强的区域对抗训练方法。该方法重新定义了训练的目标函数,重点关注深度神经网络的流形上与某个特定类别对应的区域,通过使用携带语义信息的目标通用对抗样本,在对抗训练过程中进行语义增强,通过对攻击前的目标样本进行筛选,缩减训练样本量。实验结果证明,本文使用较少的对抗样本进行区域对抗训练,就可以对多种对抗攻击实现较好的鲁棒性。本文的工作可以为其他鲁棒性优化方法提供参考。