摘要
针对SMOTE等过采样方法对每个少数类合成相同数量新样本以及合成边界噪声样本的缺点,提出了一种改进的SMOTE过采样方法.为提高违约用户识别率,构建高效准确的信用风险评估模型,利用改进的SMOTE过采样方法对不平衡数据进行平衡化处理,并构建基于基模型差异性的Stacking集成模型识别违约用户.为解决Stacking模型容易出现过拟合的问题,同时最大程度保证模型的准确率,根据JC指标为模型自适应的选择基模型,既要保证准确率,又要存在一定的差异性.Lending Club数据集的实验结果表明,JC指标挑选出的基分类器所构成的Stacking集成模型性能更优.
基金项目
国家自然科学基金(61662079)
国家自然科学基金(11761070)
国家自然科学基金(U1703262)
自治区自然科学基金联合项目(2021D01C078)