基于融合特征的长文本分类方法

Research on long text classification method based on fusion features

鲍闯 ¹乔杰 ¹李海斌 ²冯姣 ¹李鹏¹

扫码查看

作者信息

1. 南京信息工程大学电子与信息工程学院, 南京 210044
2. 浙江海洋大学信息工程学院, 浙江舟山 316022
折叠

摘要

为解决当前长文本分类算法仅采用全局目标向量作为文本句向量表示,忽略文本明显的语义特征问题,提出一种基于融合特征的长文本分类模型.该模型采用BERT训练词向量表示文本,按照长文本的分层结构进行文本划分,在句向量生成中融合卷积最大池化的特征向量和BERT句向量作为局部文本的最终句向量.最后,通过双向长短期记忆网络提取文本的全局信息,并引入注意力机制关注重点,进行文本分类.提出的分割注意力长文融合模型有效地关注了文本语义特征,获得了较好的分类性能.该模型在海事海商长文数据集和复旦大学中文文本分类语料库2个数据集上进行的文本分类实验表明,该模型相对于基准模型具有更优的表现.

关键词

长文本分类/BERT/注意力机制/CNN/Bi-LSTM

引用本文复制引用

基金项目

出版年

2022

重庆理工大学学报

重庆理工大学

重庆理工大学学报

CSTPCD北大核心

影响因子：0.567

ISSN：1674-8425

被引量4

参考文献量1

段落导航