首页|融合聚类过采样算法的信贷不平衡数据分类

融合聚类过采样算法的信贷不平衡数据分类

扫码查看
不平衡数据往往会导致信用机构对"坏客户"的识别率较低.针对传统聚类过采样算法的边界样本损失问题,提出一种融合改进的K中心点算法的过采样方法——KmediodSMOTE,通过引入聚类准则函数和边界阈值以减少边界样本损失,并提出一种适用于非平衡数据的K值选取方法——UET-SSE.首先,根据Pearson相关系数和少数类K近邻确定边界阈值,然后划分适合聚类采样的区域,并使用UET-SSE方法选取K值进行聚类,最后引入"中心度"的概念进行加权过采样.实验结果表明,该方法与经典过采样算法SMOTE、BorderlineS⁃MOTE、KmeansSMOTE相比,在RF分类器下的G-means全为最高,F1-measure在4组数据中有3组最高,有效提高了不平衡数据的分类准确率.
Credit Unbalanced Data Classification Based on Clustering Oversampling Algorithm

樊东醒、叶春明

展开 >

上海理工大学管理学院,上海200093

边界样本损失 KMediodSMOTE 聚类准则函数 边界阈值 UET-SSE 加权过采样

国家自然科学基金上海市科委"科技创新行动计划"软科学重点项目上海理工大学科技发展项目

71840003206921043002018KJFZ043

2021

软件导刊
湖北省信息学会

软件导刊

影响因子:0.524
ISSN:1672-7800
年,卷(期):2021.20(11)
  • 1
  • 10