计算机技术与发展2022,Vol.32Issue(1) :54-60.DOI:10.3969/j.issn.1673-629X.2022.01.010

多类别文本分类方法比较研究

Study on Comparison of Multi-class Text Classification Methods

于卫红
计算机技术与发展2022,Vol.32Issue(1) :54-60.DOI:10.3969/j.issn.1673-629X.2022.01.010

多类别文本分类方法比较研究

Study on Comparison of Multi-class Text Classification Methods

于卫红1
扫码查看

作者信息

  • 1. 大连海事大学 航运经济与管理学院,辽宁 大连 116026
  • 折叠

摘要

文本分类特别是多类别文本分类问题是非常重要的经典问题,在舆情监测、新闻推荐、在线评论情感分析等领域有着广泛的应用.目前,可用于多类别文本分类的算法很多,但每个算法都有其特定的假设和优缺点.为了帮助使用者或研究者更好地选择和改进分类方法,设计了多类别文本分类方法比较方案,综合考虑了文本特征表示方法和分类算法两个维度,对3种文本特征表示方法和5种分类算法进行组合,形成15种分类模型作为比较对象.基于所设计的比较流程,以从媒体阅读网站SKIP-GRAM爬取SKIP-GRAM的3000条不同类别的资讯文本为研究语料,对15种模型在不同数据规模下进行若干次比较后,以Kappa系数和运行时间作为评估指标.综合评估后认为:使用词嵌入进行文本特征表示无论在分类模型的运行速度上还是分类效果上都具有明显的优势,KNN+CBOW、SVM+CBOW、朴素贝叶斯+CBOW都是解决多类别文本分类问题较佳的模型.

关键词

文本分类/多类别/机器学习/文本特征表示/分类算法

引用本文复制引用

基金项目

辽宁省社会科学规划基金(L17BGL025)

出版年

2022
计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
参考文献量11
段落导航相关论文