摘要
随着社会信息化的迅猛发展,文本数据的规模也不断扩大。多标签文本分类是自然语言处理领域中的一个重要任务,旨在为文本数据分配多个标签,被广泛应用在垃圾邮件检测、智能问答、情感分析、用户意图分类等场景,具有非常广阔的应用前景。文本数据的激增不仅给文本分类研究带来了新的发展机遇,同时也对现有的文本分类技术带来新的挑战。其中,文本数据的类别不平衡问题就是非常具有挑战性的问题。在文本数据集中,数据集内的绝大部分数据往往被某些频繁使用的标签占据,然而剩余标签类别却只拥有非常少量的数据,这种数据不平衡现象会对文本分类模型的分类性能造成严重影响。 现有的多标签文本分类方法,大多都在考虑如何让模型生成更好的文本特征,往往忽略了文本数据集中的数据不平衡情况。数据不平衡问题会使模型在学习时倾向于样本数量更多的标签类别,导致模型在样本数量少的类别上性能下降,从而影响整体性能。另外,在多标签文本分类任务中,数据不平衡问题还会体现在层级标签中。层级多标签文本分类任务是多标签文本分类任务的子任务,旨在预测带有父子关系的多个标签。在层级多标签文本数据集中,随着标签层级的加深,标签从的粒度不断变细,标签的数量也会出现明显的减少,同时,模型的分类性能也会随之下降。 本文针对数据不平衡问题,在多标签文本分类和层级多标签文本分类的场景下展开研究,主要贡献如下: (1)针对多标签文本分类数据集中的数据不平衡问题,本文提出了一个基于双边分支网络和孪生网络的深度学习模型BBSN(Bilateral-BranchSiameseNetwork),该模型拥有四个分支,共同组成了一个双边分支网络和两个孪生网络。在双边分支网络中,提出对两个分支的分类结果进行加权,来提升模型的分类能力。在孪生网络中,提出了一种全类别对比学习方法,通过比较两个分支的文本输入在各个类别上的相似度,来增强模型的特征表示能力。最后,BBSN在训练过程中将多个任务的损失函数相结合,采用多任务的训练方法来同时兼顾模型的特征表示能力和分类能力。在两个基准数据集上的实验结果表明,BBSN可以提高模型在不平衡数据集上的分类性能。 (2)针对层级多文本分类数据集中的数据不平衡问题,本文提出了一个针对不平衡数据集的层级感知文本分类模型HiBBN(Hierarchy-awareBilateral-BranchNetwork)来挖掘文本分类数据集中的标签层级信息。HiBBN拥有两个分支,同时采用双向树形图来对标签层级信息进行编码,并统计训练集中的标签出现次数计算先验概率作为树形图的权重。与此同时,我们采用图卷积神经网络将文本特征和标签层级信息进行联合编码,得到蕴含标签层级信息的文本特征表示。在分类阶段,HiBBN通过对两个分支的分类结果进行加权,提高模型的分类能力。实验表明,我们的模型可以同时兼顾标签层级信息和数据不平衡问题,相比以往的文本分类方法,取得了更好的分类性能,并且随着标签层级的加深,提升的效果越明显。