基于语义增强的多通道文本分类方法研究

赵博文¹

扫码查看

作者信息

1. 哈尔滨工程大学
折叠

摘要

文本分类任务在自然语言处理领域中占据非常重要的地位，它为情感分析、知识图谱、智能问答等课题的研究提供了基础和前提。对社交平台中的记录性文本、网购平台中的商品反馈、媒体平台上的音视频等内容的讨论和评价进行类别划分，可以高效地进行舆情控制、产品迭代、把握内容更新方向，因此对文本分类进行研究能极大的促进科研进步并带来巨大的商业价值。在网络高速发展的时代，文本自身长度的增大、文本数据量的增多和文本句法结构更加复杂等现状对文本分类提出了更加准确的要求。常见的文本分类方法通过将文本转换为对应的特征向量，经过神经网络进行特征提取并对特征向量进行更新，建立特征向量与文本类别之间的映射关系实现文本分类。但这些方法更多的对文本的顺序特征或局部特征进行提取，对长距离单词之间的关系和影响以及文本的结构特征提取不够充分。为解决这一问题，本文首先提出了一种基于双层注意力机制的多通道卷积神经网络，使用单词级和文本级的双层注意力运算得到全局特征向量并获取若干关键词，使用多通道卷积运算捕获关键词及其上下文单词所在位置的局部特征，将全局特征向量和局部特征向量拼接后得到最终的低维特征向量并完成文本分类。在此基础上提出了一种基于语义增强的多通道文本分类方法，在构建文本异构图的过程中引入句法依赖关系和顺序依赖关系，使用图神经网络聚合文本的结构信息并更新单词的特征向量，增强特征向量中包含的语义信息并得到一个全局特征向量。将增强后的特征向量作为基于双层注意力机制的多通道卷积神经网络的输入向量，将最终得到两个全局特征向量和一个局部特征向量拼接后降维，得到文本最终的低维特征向量并完成文本分类。本文选取AG News、DBpedia和Yelp P三个经典文本分类数据集，并在每个数据集上分别进行了参数敏感性分析和文本分类准确率实验，实验结果验证了本文所提出方法的有效性，并且准确率优于对比方法，在文本分类任务中具有较好的表现。

关键词

文本分类/语义增强/图神经网络/双层注意力机制/多通道卷积神经网络

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

杨悦/邵帅

学位年度

2023

学位授予单位

哈尔滨工程大学

语种

中文

中图分类号

段落导航