计算机应用研究2021,Vol.38Issue(5) :1398-1402.DOI:10.19734/j.issn.1001-3695.2020.05.0128

处理不平衡数据的聚类欠采样加权随机森林算法

Clustering under-sampling weighted random forest algorithm for processing unbalanced data

王磊 刘雨 刘志中 齐俊艳
计算机应用研究2021,Vol.38Issue(5) :1398-1402.DOI:10.19734/j.issn.1001-3695.2020.05.0128

处理不平衡数据的聚类欠采样加权随机森林算法

Clustering under-sampling weighted random forest algorithm for processing unbalanced data

王磊 1刘雨 1刘志中 1齐俊艳1
扫码查看

作者信息

  • 1. 河南理工大学计算机科学与技术学院,河南焦作454003
  • 折叠

摘要

针对现有欠采样处理算法中存在样本缺少代表性、分类性能差等问题,提出了一种基于聚类欠采样的加权随机森林算法(weighted random forest algorithm based on clustering under-sampling,CUS-WRF).利用K-means算法对多数类样本聚类,引入欧氏距离作为欠采样时分配样本个数的权重依据,使采样后的多数类样本与少数类样本形成一个平衡的样本集,以CART决策树为基分类器,加权随机森林为整体框架,同时将测试样本的准确率作为每棵树的权值来完成对结果的最终投票,有效提高了整体分类性能.选择八组KEEL数据集进行实验,结果表明,与其余四种基于随机森林的不平衡数据处理算法相比,CUS-WRF算法的分类性能及稳定性更具优势.

关键词

随机森林/不平衡数据集/欠采样/K-means/欧氏距离

引用本文复制引用

基金项目

国家自然科学基金面上项目(61872126)

河南省重点科技攻关项目(192102210123)

出版年

2021
计算机应用研究
四川省电子计算机应用研究中心

计算机应用研究

CSTPCDCSCD北大核心
影响因子:0.93
ISSN:1001-3695
被引量9
参考文献量13
段落导航相关论文