计算机技术与发展2022,Vol.32Issue(9) :95-99.DOI:10.3969/j.issn.1673-629X.2022.09.015

基于类别主题词集的加权相似度短文本分类

Short Text Classification with Weighted Similarity Based on Category Topic Word Set

王小楠 黄卫东
计算机技术与发展2022,Vol.32Issue(9) :95-99.DOI:10.3969/j.issn.1673-629X.2022.09.015

基于类别主题词集的加权相似度短文本分类

Short Text Classification with Weighted Similarity Based on Category Topic Word Set

王小楠 1黄卫东1
扫码查看

作者信息

  • 1. 南京邮电大学 管理学院,江苏 南京 210003
  • 折叠

摘要

由于短文本存在特征稀疏的问题,在分类问题上效果不佳,该文充分利用词向量模型,在词层面提出一种基于类别主题词集的加权相似度的短文本分类算法.首先训练词向量模型,其次使用TF-IDF选择出最能代表各类别的主题词形成类别主题词集,将短文本的关键词与各类别主题词分别进行相似度计算,将类别主题词对主题的贡献度表示在权重中,选择相似度最高的结果作为该短文本的类别.实验结果表明,基于类别主题词集的加权相似度短文本分类方法在精确率上相较KNN算法、Logistic回归算法、决策树分类算法分别提高了2.9%、1.8%、10.2%;在召回率上分别提升了3.0%、1.7%、10.4%.但是类别主题词对类别的贡献度量化维度简单.基于主题词集的加权相似度短文本分类算法在词的层面解决了短文本分类中的特征不足的问题,提高了短文本分类的性能.

关键词

Word2Vec/短文本分类/相似度/类别主题/加权

引用本文复制引用

基金项目

出版年

2022
计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
参考文献量9
段落导航相关论文