摘要
近年来,随着深度学习技术的快速发展,它的功能得到了更广泛的认可和应用。在文本领域,除了可以帮助人们更好地分析数据之外,它还可以帮助人们更准确地做出有效决策。例如,它可以帮助人们识别潜在的风险,并采取措施来避免这些风险,从而使我们的决策更加明智和可靠。然而,研究表明文本领域的DNN模型容易受到文本对抗样本的影响。文本对抗样本是指在正常文本数据中加入一些难以察觉的微小扰动,使得分类模型无法正确预测其类别,从而达到影响和攻击文本分类模型的目的。因此,探索有效的文本对抗样本防御方法具有重要意义。然而,目前的文本对抗样本防御方法还面临着许多挑战。例如,现有的文本对抗防御方法在防御类型和泛化性方面存在不足;现有的文本对抗防御方法在研究和训练方面需要额外投入时间、物力、人力;当前,大多数文本对抗防御方法会降低目标模型的原始准确率。这些问题的存在,使得现有的文本对抗样本防御方法存在较大缺陷,从而导致文本DNN模型的脆弱性被别有用心者利用,进而破坏文本DNN模型的正常工作。因此,亟需进一步探索和研究新的文本对抗样本防御方法,以提高DNN模型在鲁棒性、安全性和可靠性方面的表现。 为了解决上述提到的当前文本对抗样本防御方法存在的问题,本文提出了基于生成对抗网络的文本对抗样本防御方法。该方法借鉴了生成对抗网络的思想,提出了一种新颖的文本对抗样本生成模型(Text-AdvGAN)算法。通过结合生成对抗网络(GenerativeAdversarialNetworks,GAN)的强大功能,本算法可以以有效的生成有质量保证的文本对抗样本,提升目标模型性能。本文的主要贡献包括: 1.本文针对当前文本对抗样本防御方法防御类型单一且泛化性不好的问题,提出了一种基于生成对抗网络的文本对抗样本生成方法。该方法利用生成对抗网络中生成器和判别器的博弈机制,利用生成器生成更多样、更真实、更有效的文本对抗样本,提高了文本对抗样本的全面性和泛化性。从而增强了防御方法的防御能力,使其在面对多场景、多类型的文本攻击方法时,能有效避免文本对抗样本对目标模型的干扰与影响,确保目标模型的正常工作。 2.本文针对当前文本对抗样本防御方法需要额外资源投入和对目标模型识别准确率造成较大影响的问题,提出了一种基于生成对抗网络的文本对抗防御方法。该方法在利用生成器生成文本对抗样本的同时,将判别器作为防御模型,博弈训练得到针对当前攻击方法的防御策略。在无需针对特定的攻击方法进行研究,也无需额外的时间、物力、人力消耗的同时,既能生成更好的文本对抗样本,又能提高判别器的鉴别能力,实现更好的防御效果。此外,该方法与现有的对抗训练和针对性防御方法有所不同,它在训练过程中就让判别器模型学习区分原始样本和对抗样本,而不是像其他方法那样,只在测试阶段才进行对抗防御。这样做的好处是,判别器模型可以更好地学习原始样本和对抗样本的特征分布,从而提高模型的鲁棒性和泛化能力。因此,训练完成的判别器在进行防御时,能有效避免防御方法导致目标模型过拟合或降低对正常样本的分类性能的问题。得益于利用判别器进行防御这一机制,本方法能够在有效地区分对抗样本和原始样本的同时,减少对目标模型的干扰。 3.本文针对情感分类这一实际应用领域,在情感分类数据集中,应用Text-AdvGAN,测试生成对抗样本的效果与防御模型的效果。本文以准确率和通用句子编码器(UniversalSentenceEncoder,USE)对于句子的向量内积为评价指标,分别从文本攻击方法效果、对抗样本与原始样本相似度、文本防御方法效果、文本防御方法通用性等四个方面测试Text-AdvGAN的性能。实验结果表明,对比现有的文本对抗样本生成方法与防御方法,Text-AdvGAN的效果明显优于其他主流方法,且具有一定的泛化与通用性能。