Experimental Comparative Analysis of Data Balancing Based on GAN
扫码查看
点击上方二维码区域,可以放大扫码查看
原文链接
国家科技期刊平台
NETL
NSTL
维普
万方数据
数据不平衡指数据集中各类别的样本数量极不均衡,实际应用中这类问题经常出现.研究了传统的数据过采样技术RANDOM、SMOTE、AD AS YN以及目前流行的深度学习技术GAN.基于加利福尼亚大学16个非图像机器学习数据集,通过大量实验对传统过采样技术以及CGAN、WGAN进行评估.通过对比分析发现:在训练样本不充足的情况下,相对于CGAN及传统的过采样技术,WGAN能够产生更好的样本,从而获得更高的测试精度.同时,研究发现训练样本的不平衡率是影响CGAN和WGAN过采样技术运行结果的重要因素.