基于可解释性的图神经网络后门攻击研究

陈璐瑶¹

扫码查看

作者信息

1. 中国科学院大学
折叠

摘要

图数据由于其强大的表达能力，被广泛应用于诸如社交网络、交通网络、欺诈检测等诸多领域。近几年，图神经网络(GNN)开始兴起，用于对图数据做建模，并且在包括节点分类、图分类和链路预测等在内的复杂任务中表现出优异的性能。但是，最近有研究者发现图神经网络模型可以被实施后门攻击。攻击者可以往GNN模型中注入后门，该后门模型可以在原始的干净节点上有正常的表现，但是会将带触发器的节点错误预测成攻击者指定的目标类别。现有的图神经网络后门攻击可以分为两类:以子图作为触发器的攻击和以节点特征作为触发器的攻击。第一类攻击构建子图触发器，对周围K跳内的所有节点做攻击。第二类攻击通过对节点特征做干扰来实现对离散特征图中的节点的攻击。但是，现有工作无法对图中的任意节点做攻击，同时有效地攻击离散特征图和连续特征图。因此，本文构建了一个基于可解释性的可以攻击图中任意节点的图神经网络后门攻击方法。具体而言，对于特定节点，首先使用边可解释性算法确定重要边，对于这些边做翻转(某个位置原来有边就去除，反之亦然)，从而生成边触发器。然后，使用特征可解释性算法确定重要特征。之后，使用神经网络在重要特征维度上生成特征触发器。最后，将边触发器和特征触发器都添加到特定节点上，实现攻击。本文的贡献点如下:(1)提出了一种可以实现任意攻击的图神经网络后门攻击方法。该方法可以对图中的任意节点做精准攻击，同时保证尽可能不影响其他节点。除此之外，该方法可以有效地攻击连续特征图和离散特征图。(2)在攻击某个特定节点时，先使用了图神经网络可解释性算法来选择重要边和重要特征，再基于这些重要边和特征生成触发器。由于选择了对模型预测结果影响最大的边和特征做干扰，所以模型很容易将目标节点的类别预测错误;由于只对目标节点的少量重要边和重要特征做干扰，所以可以保证对其他节点的影响尽可能小。本文在离散特征图Facebook和连续特征图TwitterSH上分别进行了实验，实验结果表明本文攻击可以有效应用于离散图和连续图。本文与目前的两个基准方法均进行了对比，随机选择了不同数量的目标节点进行攻击。本文方法的效果要优于另外两个方法。

关键词

图神经网络/后门攻击/可解释性/特征触发器/边触发器

引用本文复制引用

授予学位

硕士

学科专业

计算机应用技术

导师

文雨

学位年度

2023

学位授予单位

中国科学院大学

语种

中文

中图分类号

段落导航