首页|基于类别主题词集的加权相似度短文本分类

基于类别主题词集的加权相似度短文本分类

扫码查看
由于短文本存在特征稀疏的问题,在分类问题上效果不佳,该文充分利用词向量模型,在词层面提出一种基于类别主题词集的加权相似度的短文本分类算法.首先训练词向量模型,其次使用TF-IDF选择出最能代表各类别的主题词形成类别主题词集,将短文本的关键词与各类别主题词分别进行相似度计算,将类别主题词对主题的贡献度表示在权重中,选择相似度最高的结果作为该短文本的类别.实验结果表明,基于类别主题词集的加权相似度短文本分类方法在精确率上相较KNN算法、Logistic回归算法、决策树分类算法分别提高了2.9%、1.8%、10.2%;在召回率上分别提升了3.0%、1.7%、10.4%.但是类别主题词对类别的贡献度量化维度简单.基于主题词集的加权相似度短文本分类算法在词的层面解决了短文本分类中的特征不足的问题,提高了短文本分类的性能.
Short Text Classification with Weighted Similarity Based on Category Topic Word Set

王小楠、黄卫东

展开 >

南京邮电大学 管理学院,江苏 南京 210003

Word2Vec 短文本分类 相似度 类别主题 加权

721701129316ZDA054KYCX21_0836

2022

计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
年,卷(期):2022.32(9)
  • 9