计算机技术与发展2020,Vol.30Issue(6) :65-70.

面向图书主题分类的随机森林算法的应用研究

Application of Random Forest Algorithm for Book Subject Classification

孙彦雄 李业丽 边玉宁
计算机技术与发展2020,Vol.30Issue(6) :65-70.

面向图书主题分类的随机森林算法的应用研究

Application of Random Forest Algorithm for Book Subject Classification

孙彦雄 1李业丽 1边玉宁1
扫码查看

作者信息

  • 1. 北京印刷学院,北京 102600
  • 折叠

摘要

针对传统随机森林算法对文本特征提取质量不高导致分类效果差的问题,提出一种对图书等大数据量文本信息文本的改进的随机森林算法.又由于传统随机森林决策树质量难以保证,提出一种加权投票提高决策树质量的机制.算法主要由两方面组成,一方面是基于文本主题特征提取的Tr-K方法,目的是提高文本主题特征的质量与代表性;另一方面是基于bootstrap抽样时遗留的1/3袋外数据提出的验证机制.文中采用的是20 Newsgroups数据集和来自于搜狗实验室提供的中文分类语料库,中英文两种数据集充分考虑了该模型的泛化性,并在实验中验证了不同数据集下较传统随机森林算法拥有更优秀的分类能力. Python环境下的实验数据表明,该方法在文本分类中相对于C4. 5、KNN、SVM、原始随机森林算法可以取得更好的结果.

关键词

图书文本分类/随机森林/Tr-K方法/TRk-SW-RF模型/主题分类/决策树

引用本文复制引用

基金项目

北京市科技创新服务能力协同创新项目(PXM2016014223000025)

出版年

2020
计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
被引量2
参考文献量6
段落导航相关论文