面向不平衡数据的多标签文本分类

赵江江¹

扫码查看

作者信息

1. 杭州电子科技大学
折叠

摘要

随着社会信息化的迅猛发展，文本数据的规模也不断扩大。多标签文本分类是自然语言处理领域中的一个重要任务，旨在为文本数据分配多个标签，被广泛应用在垃圾邮件检测、智能问答、情感分析、用户意图分类等场景，具有非常广阔的应用前景。文本数据的激增不仅给文本分类研究带来了新的发展机遇，同时也对现有的文本分类技术带来新的挑战。其中，文本数据的类别不平衡问题就是非常具有挑战性的问题。在文本数据集中，数据集内的绝大部分数据往往被某些频繁使用的标签占据，然而剩余标签类别却只拥有非常少量的数据，这种数据不平衡现象会对文本分类模型的分类性能造成严重影响。现有的多标签文本分类方法，大多都在考虑如何让模型生成更好的文本特征，往往忽略了文本数据集中的数据不平衡情况。数据不平衡问题会使模型在学习时倾向于样本数量更多的标签类别，导致模型在样本数量少的类别上性能下降，从而影响整体性能。另外，在多标签文本分类任务中，数据不平衡问题还会体现在层级标签中。层级多标签文本分类任务是多标签文本分类任务的子任务，旨在预测带有父子关系的多个标签。在层级多标签文本数据集中，随着标签层级的加深，标签从的粒度不断变细，标签的数量也会出现明显的减少，同时，模型的分类性能也会随之下降。本文针对数据不平衡问题，在多标签文本分类和层级多标签文本分类的场景下展开研究，主要贡献如下：（1）针对多标签文本分类数据集中的数据不平衡问题，本文提出了一个基于双边分支网络和孪生网络的深度学习模型BBSN（Bilateral-BranchSiameseNetwork），该模型拥有四个分支，共同组成了一个双边分支网络和两个孪生网络。在双边分支网络中，提出对两个分支的分类结果进行加权，来提升模型的分类能力。在孪生网络中，提出了一种全类别对比学习方法，通过比较两个分支的文本输入在各个类别上的相似度，来增强模型的特征表示能力。最后，BBSN在训练过程中将多个任务的损失函数相结合，采用多任务的训练方法来同时兼顾模型的特征表示能力和分类能力。在两个基准数据集上的实验结果表明，BBSN可以提高模型在不平衡数据集上的分类性能。（2）针对层级多文本分类数据集中的数据不平衡问题，本文提出了一个针对不平衡数据集的层级感知文本分类模型HiBBN（Hierarchy-awareBilateral-BranchNetwork）来挖掘文本分类数据集中的标签层级信息。HiBBN拥有两个分支，同时采用双向树形图来对标签层级信息进行编码，并统计训练集中的标签出现次数计算先验概率作为树形图的权重。与此同时，我们采用图卷积神经网络将文本特征和标签层级信息进行联合编码，得到蕴含标签层级信息的文本特征表示。在分类阶段，HiBBN通过对两个分支的分类结果进行加权，提高模型的分类能力。实验表明，我们的模型可以同时兼顾标签层级信息和数据不平衡问题，相比以往的文本分类方法，取得了更好的分类性能，并且随着标签层级的加深，提升的效果越明显。

关键词

多标签文本分类/自然语言处理/不平衡数据

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

殷昱煜

学位年度

2023

学位授予单位

杭州电子科技大学

语种

中文

中图分类号

段落导航