基于图神经网络增强的文本分类算法

陈重元¹

扫码查看

作者信息

1. 重庆邮电大学
折叠

摘要

在如今这样一个大数据时代，仅依靠人工方式对文本数据进行处理是效率低下、成本高昂的。随着计算机硬件与计算能力的蓬勃发展，使用机器通过文本分类算法来处理文本数据逐渐成为一类主流方法，受到了各行各业广泛地关注与应用。文本分类是自然语言处理领域中的一个热门的基础任务，其目的是为各式各样的文档指定预定义的类别标签。现有的文本分类算法面临的主要挑战，包括但不限于以下三个方面：1)如何提高算法模型对文本特征的提取能力与聚合能力，以及模型形成高层次文本表示的能力；2)如何探索文本数据之间的内在相关性并加以利用，以及更加充分地发挥数据标签信息的作用；3)针对基于图神经网络的文本分类模型，如何为其提供一种更高质量的输入数据形式，在增加输入文本数据的先验语义信息的同时，提高模型预测能力的上限。本文围绕这三个方面的挑战展开研究，提出了两种基于图神经网络的文本分类算法，主要研究内容如下： 1.提出了一种基于多状态图神经网络的文本分类算法。首先，对文本数据进行预处理操作后，将每份文档单独构建为图结构数据，作为适配模型的输入数据；其次，对图卷积神经网络与门控图神经网络进行改进，引入了网络层的历史状态信息，在缓解模型中存在的过度平滑问题的同时，增强了模型的特征提取能力；最后，借助多头自注意力机制对关键词的挖掘与利用能力，从多个文本子空间来形成文本的高质量表示。 2.提出了一种基于双重图对比学习的文本分类算法。首先，将文本数据构建为图结构数据，并对图的边引入了权重值，其权重值由TF-IDF算法与TextRank算法融合得到，以增加输入数据所承载的信息量；其次，针对文本分类任务中对文本关键词的强依赖性，设计了三种适用于带权图结构数据的数据增强方法，以得到合理的、具有多样性的增强视图；最后，为了挖掘文本数据之间的差异化信息，提高标签信息的利用程度，将自监督图对比学习与有监督图对比学习方法相结合，提升算法对不同类型的图神经网络的适配能力。本文方法能够有效获得高质量的文本表示并提升模型的文本分类效果，在六个公开的文本分类数据集上与近年来的九种文本分类算法模型进行对比实验，实验结果充分表明了本文所提的两个方法的性能优势。

关键词

文本分类/数据增强/图对比学习/图神经网络/注意力机制

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

王进

学位年度

2022

学位授予单位

重庆邮电大学

语种

中文

中图分类号

段落导航