重庆理工大学学报2022,Vol.36Issue(9) :128-136.DOI:10.3969/j.issn.1674-8425(z).2022.09.016

基于融合特征的长文本分类方法

Research on long text classification method based on fusion features

鲍闯 乔杰 李海斌 冯姣 李鹏
重庆理工大学学报2022,Vol.36Issue(9) :128-136.DOI:10.3969/j.issn.1674-8425(z).2022.09.016

基于融合特征的长文本分类方法

Research on long text classification method based on fusion features

鲍闯 1乔杰 1李海斌 2冯姣 1李鹏1
扫码查看

作者信息

  • 1. 南京信息工程大学 电子与信息工程学院, 南京 210044
  • 2. 浙江海洋大学 信息工程学院, 浙江 舟山 316022
  • 折叠

摘要

为解决当前长文本分类算法仅采用全局目标向量作为文本句向量表示,忽略文本明显的语义特征问题,提出一种基于融合特征的长文本分类模型.该模型采用BERT训练词向量表示文本,按照长文本的分层结构进行文本划分,在句向量生成中融合卷积最大池化的特征向量和BERT句向量作为局部文本的最终句向量.最后,通过双向长短期记忆网络提取文本的全局信息,并引入注意力机制关注重点,进行文本分类.提出的分割注意力长文融合模型有效地关注了文本语义特征,获得了较好的分类性能.该模型在海事海商长文数据集和复旦大学中文文本分类语料库2个数据集上进行的文本分类实验表明,该模型相对于基准模型具有更优的表现.

关键词

长文本分类/BERT/注意力机制/CNN/Bi-LSTM

引用本文复制引用

基金项目

出版年

2022
重庆理工大学学报
重庆理工大学

重庆理工大学学报

CSTPCD北大核心
影响因子:0.567
ISSN:1674-8425
被引量4
参考文献量1
段落导航相关论文