计算机研究与发展2021,Vol.58Issue(3) :539-547.DOI:10.7544/issn1000-1239.2021.20200324

基于深度集成学习的类极度不均衡数据信用欺诈检测算法

Credit Fraud Detection for Extremely Imbalanced Data Based on Ensembled Deep Learning

刘颖 杨轲
计算机研究与发展2021,Vol.58Issue(3) :539-547.DOI:10.7544/issn1000-1239.2021.20200324

基于深度集成学习的类极度不均衡数据信用欺诈检测算法

Credit Fraud Detection for Extremely Imbalanced Data Based on Ensembled Deep Learning

刘颖 1杨轲2
扫码查看

作者信息

  • 1. 吉林财经大学管理科学与信息工程学院 长春130117
  • 2. 吉林财经大学税务学院 长春130117
  • 折叠

摘要

信用欺诈数据分布极度不均衡时,信息失真、周期性统计误差和报告偏倚所产生的噪声错误对训练模型干扰凸显,且易产生过拟合现象.鉴于此,提出一种深度信念神经网络集成算法来解决类极度不均衡的信用欺诈问题.首先,提出双向联合采样算法克服信息缺失和过拟合问题;然后,构造2阶段基分类器簇,针对支持向量机(support vector machine,SVM)对不均衡数据分布所表现的分类超平面向少数类偏移问题,利用增强(boosting)算法生成SVM与随机森林(random forest,RF)结合的基分类器簇;利用深度信念网络(deep belief network,DBN)整合基分类器簇的多元预测,输出分类结果.考虑传统精度评价指标过度关注多数类样本,忽视信用欺诈存在违约损失高于利息收益事实,引入成本-效益指数兼顾正类和负类样本的识别能力,提高模型对少数类样本预测精度.通过对欧洲信用卡欺诈数据检测发现,相比于其他相关算法成本-效益指数均值提高3个百分点,同时,实验比较样本不均衡比例对算法精度影响,结果表明在处理极端不均衡数据时所提算法效果更优.

关键词

信用欺诈/类极不均衡/深度信念神经网络/支持向量机/成本-效益指数

引用本文复制引用

基金项目

国家社会科学基金(20BTJ062)

出版年

2021
计算机研究与发展
中国科学院计算技术研究所 中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心
影响因子:2.649
ISSN:1000-1239
被引量12
参考文献量2
段落导航相关论文