基于分组胶囊网络的文本分类方法研究

朱海景¹

扫码查看

作者信息

1. 四川大学
折叠

摘要

文本分类是自然语言处理中的重要环节，其分类效果直接影响着后续任务的顺利展开。随着深度学习的广泛研究，基于深度学习的文本分类模型如雨后春笋般出现，文本分类的准确率及时效性得到了大幅提升。胶囊网络是一种新兴的深度学习模型，其利用向量表示的胶囊进行信息传递，能够携带丰富的底层特征，因此广泛运用于计算机视觉和自然语言处理等领域。然而胶囊网络参数量大、训练时间长、模型计算复杂等问题备受诟病，导致胶囊网络发展受阻。另外，文本分类任务中的语义信息提取困难、噪声信息干扰严重等情况仍然是当前文本分类面临的突出问题，在长文本分类任务中体现尤为明显。本文首先针对胶囊网络存在的上述问题，提出了一种基于静态路由分组胶囊网络的文本分类模型对胶囊网络进行改进，达到减少模型参数和训练时间、降低计算复杂度的目的；其次针对长文本分类任务存在的难题，在基于静态路由分组胶囊网络的文本分类模型的基础上，提出了一种基于BiGRU网络与胶囊网络的组合文本分类模型，该模型充分利用了静态路由分组胶囊网络模型对长文本数据的分类优势，并采用特征多头自注意力机制，进而提升了模型提取语义信息的能力和抗噪声干扰能力。本文主要研究内容如下：（1）构建了一个分组胶囊网络。首先利用特征向量上不同通道相同位置的元素构建初始胶囊，然后对初始胶囊进行分组，采用余弦相似度衡量胶囊间的相关程度，建立分组损失函数，最后通过最小化分组损失函数，实现胶囊分组的目的。（2）提出了一种基于静态路由分组胶囊网络的文本分类模型。首先利用分组胶囊网络对胶囊进行分组，并在同组胶囊内部共享权重矩阵。高层胶囊仅从相应的低层胶囊中获取信息，以提高胶囊信息的质量，减少无关信息的影响。然后通过胶囊压缩操作，合并相似胶囊，提取胶囊的高级语义表示，进一步减少胶囊数量。最后利用静态路由算法实现文本数据的最终分类，降低模型复杂度。实验结果表明，给定五个公共数据集中，该模型在三个数据集上准确率最优，模型参数量和训练时间均减少明显。（3）提出了一种基于BiGRU网络与胶囊网络的组合文本分类模型。该模型首先利用BiGRU网络提取全局信息，利用分组胶囊网络获取局部信息，然后将全局信息与局部信息进行线性插值，最后经静态路由算法实现文本分类。在提取全局语义信息时，采用特征多头自注意力机制，对深层语义特征给予不同的权重，从而大幅降低冗余信息的影响。同时采用Roformer预训练语言模型的编码表示，进一步提高模型的分类准确率。实验结果表明，在四个公共长文本数据集中，该模型均获得了最高准确率。同时，本文还对提出的两种模型进行了迁移学习能力对比实验，检验模型从单标签数据集迁移到多标签数据集上的分类能力，实验结果反映了本文模型具有较强的泛化能力。

关键词

文本分类/胶囊网络/注意力机制/双向门控循环单元

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

余谅

学位年度

2022

学位授予单位

四川大学

语种

中文

中图分类号

段落导航