计算机科学2021,Vol.48Issue(7) :145-154.DOI:10.11896/jsjkx.200800120

融合级联上采样与下采样的改进随机森林不平衡数据分类算法

Improved Random Forest Imbalance Data Classification Algorithm Combining Cascaded Up-sampling and Down-sampling

郑建华 李小敏 刘双印 李迪
计算机科学2021,Vol.48Issue(7) :145-154.DOI:10.11896/jsjkx.200800120

融合级联上采样与下采样的改进随机森林不平衡数据分类算法

Improved Random Forest Imbalance Data Classification Algorithm Combining Cascaded Up-sampling and Down-sampling

郑建华 1李小敏 2刘双印 1李迪3
扫码查看

作者信息

  • 1. 仲恺农业工程学院信息科学与技术学院 广州 510225;广东省高校智慧农业工程技术研究中心 广州 510225
  • 2. 仲恺农业工程学院机电工程学院 广州 510225
  • 3. 华南理工大学机械与汽车工程学院 广州 510640
  • 折叠

摘要

数据不平衡会严重影响传统分类算法的性能,不平衡数据分类是机器学习领域的一个热点和难点问题.为提高不平衡数据集中少数类样本的检出率,提出一种改进的随机森林算法.该算法的核心是对每一棵通过Bootstrap采样后的随机森林子树数据集进行混合采样.首先采用基于高斯混合模型的逆权重上采样,然后基于SMOTE-borderline1算法进行级联上采样,再用随机下采样方式进行下采样,得到每棵子树的平衡训练子集,最后以决策树为基学习器实现改进机随机森林不平衡数据分类算法.此外,以G-mean和AUC为评价指标,在15个公开数据集上将所提算法与10种不同算法进行比较,结果显示其两项指标的平均排名和平均值均为第一.进一步,在其中9个数据集上将其与6种state-of-the-art算法进行比较,在32次结果对比中,所提算法有28次取得的成绩都优于其他算法.实验结果表明,所提算法有助于提高少数类的检出率,具有更好的分类性能.

关键词

级联上采样/随机森林/不平衡数据/分类算法

引用本文复制引用

基金项目

出版年

2021
计算机科学
重庆西南信息有限公司(原科技部西南信息中心)

计算机科学

CSTPCDCSCD北大核心
影响因子:0.944
ISSN:1002-137X
被引量8
参考文献量4
段落导航相关论文