摘要
为解决当前长文本分类算法仅采用全局目标向量作为文本句向量表示,忽略文本明显的语义特征问题,提出一种基于融合特征的长文本分类模型.该模型采用BERT训练词向量表示文本,按照长文本的分层结构进行文本划分,在句向量生成中融合卷积最大池化的特征向量和BERT句向量作为局部文本的最终句向量.最后,通过双向长短期记忆网络提取文本的全局信息,并引入注意力机制关注重点,进行文本分类.提出的分割注意力长文融合模型有效地关注了文本语义特征,获得了较好的分类性能.该模型在海事海商长文数据集和复旦大学中文文本分类语料库2个数据集上进行的文本分类实验表明,该模型相对于基准模型具有更优的表现.