摘要
现实工程应用中常受数据采集设备、成本等的制约,导致数据集正负样本比例失衡,由此引发后续分类识别准确率低等问题。在众多解决方法中,最简易有效的是通过数据生成方法平衡正负样本比例。目前不平衡学习多集中于处理二分类失衡数据,但实际样本数据常具有多属性多类别的特点,因此,研究多类别不平衡学习问题具有实际应用价值。之前的研究工作中,多类别失衡数据生成过程的设计都是基于样本整体分布,而未考虑多类别失衡数据集中不同样本间的特征差异。因此,本文从多类别失衡数据的类别以及属性差异角度,提出一种基于改进生成对抗网络的单属性指导条件生成对抗网络(SingleAttributeGuidedConditionalGAN,SA-CGAN),并结合Boosting集成学习提取不同类别分布特征,构建Boosting-SA-CGAN数据生成模型,以此解决多类别样本失衡问题。本文主要研究工作如下: (1)针对现有数据生成方法易生成噪声样本和重叠数据,参考样本少训练困难,由此导致生成样本质量低的问题,提出SA-CGAN数据生成网络。该网络通过单类别单属性特征提取模式结合区间重叠算法减少类间重叠情况和噪声样本的生成,在生成过程中,采用类别标签指导并约束生成样本,并在判别器中融入卷积注意力模块,提高整体模型对多类别失衡数据的生成能力。 (2)针对多类别数据生成后边界附近数据增多,导致类别特征差异降低,易导致后续多类别识别率低的问题,提出基于Boosting的Boosting-SA-CGAN数据生成模型,通过更新样本权重减少类间边界附近数据的生成倾向,突出生成正样本数据的特征,提高分类准确率。 (3)从不同失衡比、不同类别属性个数角度,选用UCI中3个通用失衡数据集和KEEL中6个通用失衡数据集进行实验验证。将随机过采样(RS)、SMOTE、ADASYN、GAN、CGAN以及本文提出的SA-CGAN及Boosting-SA-CGAN共7种数据生成模型进行对比,采用SVM、KNN、DT和LR4种机器学习分类方法从召回率、精确率、准确率、F1值、ROC、AUC6种性能指标上对比数据生成后的分类效果,实验结果证明Boosting-SA-CGAN数据生成模型较其他方法受样本数据集的数据量和IR影响最小,能够稳定生成高质量数据提高分类结果,为后续采用生成对抗网络解决不平衡学习问题的研究奠定了理论基础。