计算机科学2021,Vol.48Issue(z2) :170-175,190.DOI:10.11896/jsjkx.210100232

基于改进TF-IDF和ABLCNN的中文文本分类模型

Chinese Text Classification Model Based on Improved TF-IDF and ABLCNN

景丽 何婷婷
计算机科学2021,Vol.48Issue(z2) :170-175,190.DOI:10.11896/jsjkx.210100232

基于改进TF-IDF和ABLCNN的中文文本分类模型

Chinese Text Classification Model Based on Improved TF-IDF and ABLCNN

景丽 1何婷婷1
扫码查看

作者信息

  • 1. 河南财经政法大学计算机与信息工程学院 郑州 450000
  • 折叠

摘要

文本分类是自然语言处理领域中的重要内容,常用于信息检索、情感分析等领域.针对传统的文本分类模型文本特征提取不全面、文本语义表达弱的问题,提出一种基于改进TF-IDF算法、带有注意力机制的长短期记忆卷积网络(Attention base on Bi-LSTM and CNN,ABLCNN)相结合的文本分类模型.该模型首先利用特征项在类内、类间的分布关系和位置信息改进TF-IDF算法,突出特征项的重要性,并结合Word2vec工具训练的词向量对文本进行表示;然后使用ABLCNN提取文本特征,ABLCNN结合了注意力机制、长短期记忆网络和卷积神经网络的优点,既可以有重点地提取文本的上下文语义特征,又兼顾了局部语义特征;最后,将特征向量通过softmax函数进行文本分类.在THUCNews数据集和online_shopping_10_cats数据集上对基于改进TF-IDF和ABLCNN的文本分类模型进行实验,结果表明,所提模型在两个数据集上的准确率分别为97.38%和91.33%,高于其他文本分类模型.

关键词

文本分类/TF-IDF/卷积神经网络/注意力机制/长短期记忆网络

引用本文复制引用

基金项目

国家自然科学基金(61806073)

出版年

2021
计算机科学
重庆西南信息有限公司(原科技部西南信息中心)

计算机科学

CSTPCDCSCD北大核心
影响因子:0.944
ISSN:1002-137X
被引量20
参考文献量5
段落导航相关论文