基于卷积神经网络的非平衡数据分类问题研究

黄颖琦¹

扫码查看

作者信息

1. 西南交通大学
折叠

摘要

非平衡问题普遍存在于各个应用领域，比如医学诊断、文本分类、故障监测等。传统的分类方法未考虑到数据的不平衡性，会导致非平衡数据的分类效果不理想。当前大数据背景下，深度学习作为机器学习的一个新的研究方向，在数据挖掘等领域取得了显著成果。其中的代表算法卷积神经网络具有表征学习的能力，是一种高效的数据挖掘工具。面对非平衡问题，应用卷积神经网络进行分类任务时，其训练过程若受到非平衡因素的不利影响，会降低少数类的分类准确率。此外，在评估分类算法的性能时，并非所有的评价指标都适用于非平衡问题。针对上述问题，本论文以卷积神经网络为训练模型，将过采样和集成学习算法与卷积神经网络结合，并对卷积神经网络的损失函数进行改进，从数据层面和算法层面研究非平衡问题的解决方案。主要研究工作概述如下： 1.针对传统过采样方法容易产生噪声数据的问题，提出了将密度峰值聚类算法和SMOTE算法结合的过采样方法DPCSMOTE。该方法先利用密度峰值算法将输入数据聚类成簇，然后筛选出需要进行过采样的簇，并确定相应的合成样本数量，最后采用SMOTE算法进行过采样。通过在不同数据集上进行实验验证了该方法的有效性。此外，针对非平衡问题，提出了一种基于F??的评价指标OFm。OFm评价指标既从误分类代价的角度予以少数类识别率更多的关注，也从混淆矩阵的角度考虑多数类识别率的影响，因此更适用于非平衡问题。实验结果表明，OFm评价指标能够在非平衡分类任务中更有效更全面地评估分类算法的性能。 2.针对卷积神经网络对非平衡数据分类性能下降的问题，对卷积神经网络的交叉熵损失函数进行改进，提出了一种基于代价敏感思想的损失函数FCELoss应用于卷积神经网络的训练过程。通过对非平衡数据中不同的类别给予不同的权重，并考虑模型输出的预测值与正确标签之间的欧氏距离，赋予多数类和少数类不同的代价损失，使得损失函数更加关注少数类，从而提高卷积神经网络模型对少数类的识别率。在非平衡比率不同的数据集上进行实验，结果表明提出的方法可以提高卷积神经网络模型对非平衡数据的分类性能。 3.为了提高非平衡问题中少数类的识别率，提出了一种以卷积神经网络为基分类器的集成学习方法。该方法先将非平衡数据集划分为多个平衡训练子集，用来训练基分类器。在对基分类器训练的过程中，逐渐降低训练子集中分类正确的少数类样本和所有多数类样本的权重，也就相当于增大分类错误的少数类样本的权重，使得这些分类错误的少数类样本在后续训练中受到更多的关注，从而达到提高少数类识别率的目的。非平衡问题中少数类样本往往误分类代价更大，因此，采用上述方法训练基分类器可以让分类错误的少数类样本在训练过程中得到更多的关注，以此来提高分类模型对少数类的识别率。实验结果验证了该算法的有效性。

关键词

非平衡分类/密度峰值/SMOTE算法/卷积神经网络/代价敏感损失函数/集成学习

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

陈红梅

学位年度

2021

学位授予单位

西南交通大学

语种

中文

中图分类号

段落导航