摘要
在当今互联网飞速发展、网民数量急剧攀升的背景下,新闻仍然是人们获取社会信息、了解时代变化的主要途径。尽管新闻的传播形式正在向图片、视频等多媒体方向发展,但新闻标题作为信息的主要概括仍然是以文字形式存在。面对互联网上大量涌现的新闻标题短文本,读者要找到感兴趣的新闻类别变得更加困难。因此,发展短文本分类技术具有重要意义。由于中文短文本的数据稀疏性问题,其分类效果往往不理想。目前,现有的中文短文本分类深度学习模型主要基于词或字符等模式特征提取。由于单模式特征提取难以解决短文本的数据稀疏性问题,因此分类效果并不理想。为解决上述问题,本文做出了以下的工作: (1)提出了一种名为 N-Radical 的中文特征拓展算法,其核心思想是结合偏旁部首和N-gram特征,以更全面地理解文本内容。该算法通过将偏旁部首和N-gram 特征结合,不仅提高了对汉字构成和含义的理解能力,还有效捕捉了词语间的局部关系和语境信息,从而提高了模型对文本的语义理解和结构理解能力。并在传统TextCNN和GRU上进行了对比试验和消融实验,实验结果表明,加入 N-Radical算法后在中文新闻标题分类任务上能显著提高传统 TextCNN和GRU的性能,为中文文本处理领域的进一步研究和应用提供了有益参考。 (2)提出了基于双向 GRU、Attention、CNN 构建多通道短文本分类模型,结合上面提出的N-Radical的特征拓展算法对原始文本进行处理。通过设计5个基线模型在THUCNews、Toutiao新闻数据集、微博热搜数据集3个数据集上进行对比实验。实验结果显示,相较于评价指标最好的基线模型,NR-GAC 在准确率和 F1 得分在三个数据集上分别高出了 3.59%、2.78%、3.94%和 3.17%、2.88%、5.08%。