首页|基于KNN和深度高斯混合模型的边界过采样方法

基于KNN和深度高斯混合模型的边界过采样方法

扫码查看
[目的]针对数据不平衡导致的分类器偏向问题,提出一种基于K-最近邻(KNN)算法和深度高斯混合模型(DGMM)的边界过采样方法.[方法]首先,采用KNN算法获得训练集中的边界少数类样本;其次,构建该区域少数类样本的DGMM,并反向应用DGMM生成符合训练集中边界少数类样本分布特征的过采样数据;最后,采用3σ准则剔除噪声样本,循环执行直到生成的样本不存在异常值.[结果]所提方法获得的AUC和G均值的最大提升幅度分别为8.62%和12.99%,对应的平均提升幅度分别为3.51%和4.93%.[局限]DGMM的参数优化方法需进一步完善.[结论]所提方法可以更好地处理数据不平衡问题.
A Novel Borderline Over-Sampling Method Based on KNN and Deep Gaussian Mixture Model for Imbalanced Data

Imbalanced DataOver-SamplingDeep Gaussian Mixture Model

张海宾、肖涵、易灿灿、袁锐

展开 >

武汉科技大学冶金装备及其控制教育部重点实验室 武汉430081

武汉科技大学机械传动与制造工程湖北省重点实验室 武汉430081

武汉科技大学精密制造研究院 武汉430081

数据不平衡 过采样 深度高斯混合模型

2021年湖北省重点研发计划项目国家自然科学基金面上项目中国博士后科学基金面上项目

2021BAA194518754162020M682492

2023

数据分析与知识发现
中国科学院文献情报中心

数据分析与知识发现

CSTPCDCSSCICSCDCHSSCD北大核心EI
影响因子:1.452
ISSN:2096-3467
年,卷(期):2023.7(5)
  • 1
  • 2