摘要
近年来,随着人工智能的快速发展,越来越多的用户开始了解并使用机器学习来处理实际问题,这导致数据量急速增长。此时继续使用人力对数据进行处理和分析已经不再现实,机器学习方法的不断发展正在逐渐的缓解这个问题。 不平衡数据分类问题在现实生活中比比皆是,比如在疾病诊断、信用卡欺诈消费等领域都有所涉及。传统的分类方法以整体准确率为性能指标,依赖原始数据集中各样本基本平衡和样本类别错误分类代价相当等假设,在实例处理问题时忽略了少数类重要性,使得模型效果不佳。 一般来说,不平衡数据集的少数类相对稀少,且有噪声数据带来的干扰以及存在数据碎片等问题,如何在不影响分类器整体分类精度的基础上提升少数类的分类精度是一个值得研究的课题。本文对基于层级分解和集成的不平衡数据分类方法开展了研究,主要研究内容如下。 (1)针对层次分解方法没有考虑各层次簇之间的差异性,忽略了每个簇在不同特征序列下拥有不同表现能力的问题,提出了一种基于层次分解的层次簇类分解算法(HCD),该算法首先对层次结构中每一层的所有簇进行了独立的特征选择,使不同的簇都能够达到最佳的分解效果,然后利用构建的层次结构进行分类。实验表明,该算法在解决不平衡率较高的数据集上有更好的分类性能。 (2)在不平衡研究中,仅仅观察不平衡率并不能直观的表现出分类的难易程度。考虑到不同类别样本之间可能出现重叠的问题,本文在AdaBoost算法的基础上,通过在每一轮训练前根据各样本分类贡献值进行采样并更新权重,提出了基于样本分类贡献值的集成算法SCAdaboost,用于处理类间存在高度重叠的不平衡分类问题。 (3)基于已有的不平衡数据分类算法和本文提出的方法,设计和实现了一个基于集成方法的不平衡数据分类系统。该系统具有数据导入模块、可视化模块以及分类模块,用户可以导入自己的数据集并通过可视化模块了解到样本的分布情况。系统中有6个常用的分类算法可以满足用户的多种需求。