基于自监督学习的图数据特征提取和利用

隽歆¹

扫码查看

作者信息

1. 吉林大学
折叠

摘要

目前，神经网络极大推动了各个领域的研究，越来越多的神经网络模型被研究人员设计并提出，如卷积神经网络、循环神经网络等等。深度学习在许多领域的成功很大部分依赖于大量可用的训练数据，深度学习模型可以从这些欧几里得数据中提取到数据本身隐藏的信息。然而，越来越多的数据以非结构化的形式存在。因此，在过去几年中，研究人员不断提出能适用于处理复杂图数据的模型并使其迅速发展。图神经网络是一种处理非欧几里得空间数据的神经网络方法，近年来受到越来越多的关注。图神经网络通过消息传递机制，不断迭代聚合近邻节点的特诊信息来捕获中心节点邻域内的结构和特征信息，同时结合中心节点自身的节点表示来更新获得中心节点的新的节点表示。目前，图神经网络在节点分类、链接预测和图分类等各种应用中取得了巨大成功。然而，在许多现实世界场景中，图结构数据通常是类别不平衡的。当在类别不平衡的数据集上进行训练时，图神经网络在节点分类任务中对于少样本类别节点的表现并不令人满意。由于少样本类别节点数量较少，导致这些少样本类别节点在训练目标函数中的参与度较少，同时，图神经网络背后的消息传递机制进一步加剧了这个问题，因为在消息传递过程中，来自少样本类别节点的信息可能会被多样本类别节点的信息所淹没。为了解决基于图神经网络的节点分类不平衡问题，最有效的方法是在传播过程中促进少样本类别节点的参与。同时，增强少样本类别节点在训练目标函数中的参与度。因此，受自监督学习从无标签数据样本中探索有用信息的启发，本文提出了两种新的基于自监督学习的框架，来解决图数据类别不平衡节点分类问题，分别为利用自监督学习改善图类别不平衡学习算法和利用自监督学习的不确定性感知动态自训练算法。具体而言，利用自监督学习改善图类别不平衡学习算法首先利用自监督学习设计对图结构数据的拓扑信息预测借口训练任务，有效缓解模型在引入标签信息训练时引入的标签偏见，帮助模型获得能够更好适配下游任务的初始化参数。然后对有标签训练集进行数据增强，利用自训练任务为无标签节点数据分配伪标签，将分配了伪标签的节点和本身带有真实人工标注信息的节点共同作为分类损失的训练样本。由于训练数据存在类别不平衡，自然导致训练数据存在拓扑不平衡，通过设计自监督边增强任务为少样本类别数据增强其在消息传递过程中的参与度。利用自监督学习的不确定性感知动态自训练算法考虑了使用自训练过程引入的噪声问题，通过最大化减小自训练过程引入的噪声，从而获得具有高置信度的伪标签是少样本类别的无标签节点，从而能够更有效的解决图类别不平衡节点分类问题。具体而言，首先利用贝叶斯图神经网络获得针对无标签节点的标签预测，应用贝叶斯不一致主动学习方法来降低贝叶斯图神经网络预测的不确定性。同时，提出标签一致性筛选出属于少样本类别且具有高置信度的无标签节点扩增训练集。针对自训练框架提出动态类别平衡规则，在每个类中选取具有高置信度伪标签的少样本类别节点来扩充有标签训练集的同时，统计当前有标签训练集中每一个类别所占的数量。每一次有标签训练集的扩增将意味着有标签训练集中每一个类别属于少样本类别还是多样本类别的重新估计。为了避免在前期训练过程中引入的噪声标签信息，在每一次有标签训练集更新的同时会重新预测当前有标签训练集中包含的所有无标签节点的伪标签信息，进一步减小引入的噪声。将提出的模型在三个常用现实数据集上的实验结果与其他基线算法进行比较，提出的模型在准确度和AUC以及F-Score评价指标上都有显著的提升，且更能真实的提升图神经网络在少样本类别节点上的表现。

关键词

自监督学习/图数据/特征提取/神经网络

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

周丰丰

学位年度

2022

学位授予单位

吉林大学

语种

中文

中图分类号

段落导航