基于词替换的高效文本对抗样本生成研究

王晓娟¹

扫码查看

作者信息

1. 安徽理工大学
折叠

摘要

对抗样本是攻击者为欺骗深度神经网络(DNNs)而故意设计的模型输入，其存在给DNNs的安全性带来严重威胁。为了揭示DNNs的固有缺陷的本质，提升深度学习模型的安全性和鲁棒性，开展对抗样本生成方式的研究工作势在必行。现存最先进的对抗样本生成方法大多基于词替换，由于确定单词替换优先级的需要，先前基于词替换生成对抗样本的研究主要采用删除评分策略来确定优先级，这就需要频繁访问目标模型，容易造成攻击方法隐蔽性差，可解释性低等问题。针对上述问题，本文在单词评分策略上进行改进，提出基于词替换的高效文本对抗样本生成算法，具体内容如下: (1)为最大程度减少目标模型访问次数，本文提出一种高效词级对抗样本生成算法(EfficientWordsGenerationAdversarialExample，EWGAE)。该算法结合注意力机制和目标模型决策进行单词评分，并在此评分策略下确定单词的替换优先级，然后利用同义词替换生成对抗样本。该算法在黑盒模型下，首先使用注意力机制计算原始文本中所有单词的重要性分数;其次将目标模型决策概率变化值作为同义替换词的影响分数;最后将两个分数结合后作为单词的评分依据。实验结果表明，该方法在牺牲部分单词扰动率的情况下，能够较大幅降低目标模型访问频率，与其他方法相比，该算法能够使攻击后的目标模型分类准确率更低。 (2)为进一步理解模型决策的同时降低单词扰动率，本文提出基于可解释模型和局部敏感哈希(LSH)的高效文本对抗样本生成算法。该算法在黑盒模式下，首先使用可解释模型计算原始文本中所有单词的重要性分数;其次使用LSH捕获同义替换词对目标模型预测结果的影响分数;然后将两个分数结合并作为单词的排序依据;最后按照分数从高到低进行同义替换，进而实现对抗攻击。通过与基线方法的对比实验，验证了该算法的有效性，并且与EWGAE相比，该算法单词修改率有小幅降低。

关键词

文本对抗攻击/黑盒攻击/深度神经网络/自然语言处理

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

方贤进

学位年度

2022

学位授予单位

安徽理工大学

语种

中文

中图分类号

段落导航