摘要
文本分类是自然语言处理任务最基础的技术支撑之一,在信息爆炸的背景下对文字资源进行手工管理和分类等操作工作量较大,采用深度学习进行文本分类可以高效快速管理文本信息,提高信息检索效率,具有重要的现实意义。近年来,图神经网络GNN在这一典型任务中取得了良好的效果。经过研究发现,基于GNN的文本分类模型还存在以下问题亟待解决:如何在网络更新中减少噪声信息;如何弥补图结构中的文本层次信息;如何补充图结构中缺失的位置信息;如何有效利用有限的标注数据进行数据增强等。针对以上问题,本文以GNN文本分类模型为基础,对图构建、GNN搭建、单词-文档级交互、图数据增强等方面进行深入研究,提出基于正则约束的分层仿射图神经网络文本分类模型Text-HARC和基于边扰动的图数据增强方法。主要研究工作如下: (1)针对存在的噪声干扰、缺乏文本层次信息和位置信息等问题,本文提出文本分类模型Text-HARC,进一步挖掘深层次语义信息。该模型丰富图的构建方式,融合GAT与GGNN,引入正则约束过滤噪声,使用仿射模块补充文本层次信息,使用相对位置编码补充词语位置信息。在TREC、SST-1、SST-2、R8、R52、MR六个基准数据集上进行实验,前四个数据集上其准确率提升明显,并通过消融实验验证模型的有效性。 (2)针对高质量标注数据不足的问题,本文提出一种基于边扰动的图数据增强方法。该方法在已构建的图上,通过节点度选择重要中心节点,并根据节点中心性确定边中心性,移除中心性较低的边,生成新图进行数据增强,使有限的训练数据产生更丰富的信息,提高模型对不重要边的抗干扰性。在TREC、SST-1、SST-2、R8、R52、MR六个基准数据集上进行实验,该方法进一步提升Text-HARC模型的准确率,迁移到改进基线模型TextING+SL上也提升明显,验证该方法的有效性和良好的迁移性。 最后,本文基于改进模型Text-HARC和边扰动的图数据增强方法设计并实现一个文本分类系统。该系统具有三个主要功能:根据预处理参数处理测试文本;根据构图参数构建文本图;根据文本图进行分类,展示详细分类结果,方便使用者对分类结果进行分析和使用,并从接口测试、功能测试和性能测试角度对其测试。