摘要
分类问题是机器学习领域研究的重要分支,而现实中的分类问题往往具有数据不平衡性,如常见的医疗诊断、信用卡欺诈检测,故障检测等,对不平衡数据的分类问题展开研究具有重要的理论与实际价值。相较于平衡数据分类问题,不平衡数据具有:类间样本不平衡,少数类样本错分代价极高的特点。集成学习算法作为当前机器学习中较为典型的代表,能够通过群体决策提高整体分类准确率,被广泛应用至不平衡数据的分类中。 但目前其对不平衡数据的分类效果仍有待提升,这主要是因为集成学习算法是以降低整体分类错误率为目标,并没有进一步考虑不同样本分类代价的差异,对关键的少数类样本识别效果欠佳。此外,不平衡数据也常伴随着高维度、低价值密度、类内数据交叠、缺失值严重等特点,这都给当前的集成学习算法带来了多重挑战。 有鉴于此,本文聚焦于不平衡数据分类问题中的难点,在现有的不平衡数据分类方法基础上,从数据和算法两个层面出发,构建自适应关键特征挖掘算法,并引入代价敏学习对AdaBoost集成学习算法进行改进,以实现模型在保证整体分类准确率的前提下,对少数类样本的有效识别。主要的研究内容如下: (1)从数据层面出发,本文将从不平衡数据的关键特征挖掘技术展开分析,针对皮尔森冗余滤波器(Pearson''sRedundancyBasedFilter,PRBF)关键特征挖掘算法在删除特征时存在盲目性,易导致模型欠拟合的问题,提出了一种基于皮尔森冗余滤波器改进的自适应关键特征挖掘算法AKKPRBF(AdaptiveKNNandKernelDensityPearson''sRedundancyBasedFilter),该算法在皮尔森冗余滤波器算法的基础上引入了核密度估计系数对关键特征进行多系数联动识别,通过基于近邻距离的KNN算法对关键特征缺失值自适应填充,以维持特征的特异性,并利用多项式动态组合创建新特征,进一步提高特征的标识度。采用AdaBoost算法作为分类器,构建AKKPRBF-AdaBoost分类模型,通过分类结果对AKKPRBF关键特征挖掘算法的有效性进行验证,实验表明AKKPRBF自适应关键特征挖掘算法对集成学习分类模型性能有着更为显著的提升。 (2)从算法层面出发,本文针对自适应增强集成学习算法AdaBoost(AdaptiveBoosting)以整体准确率最优作为目标,难以应对数据错分代价不平衡、数据类间不平衡、数据交叠等问题,引入代价敏感学习(CostSensitiveLearning),对AdaBoost算法自适应样本更新权重方式进行改进,提出了基于代价敏感改进的自适应增强集成学习算法CsAdaBoost(CostSensitiveAdaptiveBoosting),该算法在原样本权重更新方式的基础上,进一步提高分类错误的少数类样本权重,同时也适当提高分类错误的多数类样本的权重,以避免过分关注少数类样本而引起整体分类代价的攀升,实现整体分类代价最低的目标。 (3)融合数据与算法层面的研究,将AKKPRBF关键特征挖掘算法与CsAdaBoost集成学习分类算法予以结合,构建基于关键特征挖掘与代价敏感改进的集成学习算法AKKPRBF-CsAdaBoost(AdaptiveKNNandKernelDensityPearson''sRedundancyBasedFilter—CostSensitiveAdaptiveBoosting),该算法综合数据层面与算法层面的改进,既可以通过AKKPRBF算法实现不平衡数据集关键特征的自适应挖掘,也可以使用具有代价敏感的集成学习算法CsAdaBoost在保证整体准确率的前提下完成对少数类样本的有效识别。为验证模型的分类效果,将AKKPRBF-CsAdaBoost模型应用于不同领域的不平衡数据分类预测中,通过十折交叉验证、百次实验等方式,采用Recall和G-mean作为评价指标,从模型稳定性、准确性以及少数类样本识别率三个维度对算法的有效性进行评估与比较,验证所提出的AKKPRBF-CsAdaBoost具有广泛的应用领域与实用价值。