基于感兴趣区域的图文检索后门攻击

杨舜¹

扫码查看

作者信息

1. 江南大学
折叠

摘要

近年来，深度学习方法取得了空前进展，推动了计算机视觉(CV)和自然语言处理(NLP)领域的发展。双向图像-文本检索任务是多模态机器学习特别是深度学习领域中最热门的挑战之一，涉及对语言和视觉领域的语义理解，跨模态相似性和语义对齐，包括图像到文本的检索(ITR)和文本到图像的检索(TIR)。在深度学习模型的训练阶段，采用第三方数据集或预先训练的模型来降低训练成本是一种流行的方法。然而，由于深度学习模型中神经网络的不透明性，存储在模型供应商(比如Google、GitHub和Huggingface等)的中心模型很容易受到后门攻击。在多模态模型的训练阶段，失去对训练集和训练过程的控制会增加多模态检索模型的脆弱性，对于各种安全敏感应用带来了相应的攻击风险。在训练期间进行的攻击方法中，后门攻击引起了广泛关注，它能通过干扰训练阶段在模型中暗中注入恶意行为。具体来说，攻击者恶意地将带有后门触发器的图片和文本注入训练数据集，通过带毒样本的模型训练，很容易地将后门嵌入到预训练模型中。在图文检索模型推断时，带有后门的模型通常在良性样本上表现良好，而攻击者设定的秘密触发器可以激活隐藏的后门，并恶意地将模型推理结果更改为预先设定的结果。现有的后门攻击研究大部分是单模态的，主要集中在图片和文本模态，多模态模型后门攻击方面的研究很少，而且已有工作的攻击成功率和触发器隐蔽性存在提升空间，因此开展多模态图文检索后门攻击的研究具有现实意义。本文对基于深度学习的多模态图文检索模型后门攻击过程进行了形式化定义，在问题设定中讨论了攻击者是否控制样本训练过程的两种情景，在损坏标签攻击和干净标签攻击场景下，对数据集投毒和模型后门嵌入过程进行了分析。在使用细粒度数据集投毒策略的后门攻击过程中，攻击者将带毒自定义样本注入到训练集当中，使用带毒训练集微调预先训练的检索模型，把后门嵌入预训练模型。在此基础上，本文主要针对图文检索的后门攻击开展了两个研究，提出了两种新的后门攻击方法，包括： (1)基于感兴趣区域(ROI)的图文检索模型后门攻击方法(ROI-MUBA)，在图像中的ROI上叠加触发器图片生成后门攻击样本，相比非ROI的方法提高了攻击的成功率； (2)基于扩散模型的图文检索模型后门攻击方法(Diffusion-MUBA)，在第一个方法的基础上改进，基于特定的文本提示采用扩散模型编辑ROI，生成后门攻击样本，不仅提高了攻击的成功率，还增强了带毒样本的隐蔽性。两种方法都通过将带触发器的ROI区域与所选类别相关联，以在图文检索模型中建立错误的细粒度单词到区域对齐，把隐藏的后门嵌入到检索模型中。为增加带毒样本的隐蔽性，降低被用户察觉或者被基于数据集筛选的防御模型发现的可能性，又研究了第二种方法即采用扩散模型生成后门攻击样本。两种方法提升了双向图文检索后门攻击的成功率，增强了带毒样本的隐蔽性，进一步揭示了图文检索模型容易受到后门攻击的风险隐患。与现有的图文检索模型后门攻击工作不同，本文重点研究了模型微调过程中对双向图文检索的后门攻击，并提出了两种攻击方法，第一种是将基于ROI的触发器嵌入到预训练的模型(如CLIP和Uniter)中，提高攻击的成功率；第二种是在第一种方法的基础上，采用扩散模型生成后门攻击样本进行模型训练，进一步提高了攻击成功率，并增强了带毒样本的视觉隐匿性。由于深度学习的应用无处不在，本文的实验指出了多模态图文检索模型的安全性问题，强调了多模态模型后门攻击研究的重要性，这将促进防御多模态后门攻击的研究。在MSCOCO和Flickr30k数据集上进行的图-文检索和文-图检索的攻击实验取得了很高的成功率，这显著证明了本文后门攻击方法的有效性。

关键词

图文检索/后门攻击/感兴趣区域/扩散模型

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

吴小俊

学位年度

2023

学位授予单位

江南大学

语种

中文

中图分类号

段落导航