重庆理工大学学报2021,Vol.35Issue(5) :135-140,222.DOI:10.3969/j.issn.1674-8425(z).2021.05.018

融合卡方统计和TF-IWF算法的特征提取和短文本分类方法

Method of Short Text Classification Based on CHI and TF-IWF Feature Selection

李昌兵 段祺俊 纪聪辉 张婷婷
重庆理工大学学报2021,Vol.35Issue(5) :135-140,222.DOI:10.3969/j.issn.1674-8425(z).2021.05.018

融合卡方统计和TF-IWF算法的特征提取和短文本分类方法

Method of Short Text Classification Based on CHI and TF-IWF Feature Selection

李昌兵 1段祺俊 1纪聪辉 2张婷婷1
扫码查看

作者信息

  • 1. 重庆邮电大学经济管理学院,重庆 400065
  • 2. 重庆邮电大学计算机科学与技术学院,重庆 400065
  • 折叠

摘要

提出一种融合卡方统计和TF-IWF算法的短文本分类方法,通过卡方统计对训练数据集提取特征词,由TF-IWF算法赋予特征词权重,使用SVM分类器进行分类.实验结果表明:融合卡方统计和TF-IWF方法在文本分类准确率上提升3.1%,召回率提升5.2%,F1值提升3.7%.该方法扩大了特征词权重值的范围,使文本集的权值方差增大,一定程度上解决了短文本内容稀疏性的问题,从而提高短文本分类的性能.

关键词

短文本/TF-IWF权重/特征提取/情感分类

引用本文复制引用

基金项目

国家自然科学基金(60905066/F030707)

出版年

2021
重庆理工大学学报
重庆理工大学

重庆理工大学学报

CSTPCD北大核心
影响因子:0.567
ISSN:1674-8425
被引量10
参考文献量16
段落导航相关论文