首页|面向分类模型学习的样本类别均衡化方法

面向分类模型学习的样本类别均衡化方法

SYNTHETIC METHOD OF LABEL-BALANCING SAMPLES FOR CLASSIFIER LEARNING

扫码查看
过采样方法是解决数据类别不均衡的有效方法之一,现有的过采样方法容易使样本具有高相似性导致过拟合.针对该问题,提出一种基于高斯混合模型和Jensen-Shannon散度的过采样方法(GJ-RSMOTE).利用高斯混合模型对少数类样本进行聚类,通过簇的稀疏度计算各簇的采样数量以及采用超球体插值方法扩大生成样本的范围,避免了生成样本过拟合,通过Jensen-Shannon散度控制最终生成样本的数量.实验结果表明,GJ-RSMOTE可实现样本类别均衡性,可有效提高分类模型的识别精度.

李国和、刘顺欣、张予杰、郑艺峰、洪云峰、周晓明

展开 >

中国石油大学(北京)石油数据挖掘北京市重点实验室 北京 102249

中国石油大学(北京)信息科学与工程学院 北京 102249

塔里木油田克拉油气开发部 新疆 库尔勒 841000

中国反侵权假冒创新战略联盟 浙江 杭州 310010

厦门瀚影物联网应用研究院 福建 厦门 361021

展开 >

不均衡数据 过采样 高斯混合模型 Jensen-Shannon 散度

国家自然科学基金中国石油大学(北京)克拉玛依校区科研启动基金福建省自然科学基金福建省自然科学基金

60473125RCYJ2016B-03-0012018J015462019J01748

2022

计算机应用与软件
上海市计算技术研究所 上海计算机软件技术开发中心

计算机应用与软件

CSTPCD北大核心
影响因子:0.615
ISSN:1000-386X
年,卷(期):2022.39(10)
  • 1