基于改进自编码器和深度支持向量数据描述的异常检测方法

周佳航¹

扫码查看

作者信息

1. 河北大学
折叠

摘要

异常检测（Novelty Detection）被视为单类分类任务，其目标是检测出数据集中的异常数据。随着数据规模和维度的不断增加，传统的异常检测方法面临计算可扩展性差和“维度灾难”问题。为了解决该问题，传统异常检测方法通常需要大量的特征工程，相比之下，基于深度学习的方法能够自动学习数据中的潜在特征，从而有效解决计算可扩展性差和“维度灾难”问题，有效提高检测性能。因此，基于深度学习的方法在异常检测领域取得了成功，其中基于自编码器（Autoencoder, AE）的异常检测方法和深度支持向量数据描述（Deep Support Vector Data Description, Deep SVDD）方法被广泛用于异常检测任务。然而，基于AE的异常检测方法和Deep SVDD存在以下不足：一、在上述两种方法的训练过程中，训练集仅由正常数据构成，缺少异常数据的相关信息，导致模型检测异常数据的效果往往不够理想；二、基于AE的异常检测方法在部分异常数据与正常数据上产生的重构误差非常接近，导致这些异常数据容易被错分为正常数据；三、Deep SVDD旨在最小化超球体积，并没有考虑如何通过深度神经网络获得更具代表性的样本潜在特征，导致模型检测性能不够稳定。本文对基于AE的异常检测方法和Deep SVDD进行了改进，主要工作包含以下两个方面： 1. 提出了基于双自编码器和变换网络的异常检测方法，所提模型由两个并行的AE和一个变换网络组成。首先，所提变换网络通过输入样本编码后的隐层特征表示（称为潜在特征）生成带有异常数据信息的潜在特征，称为伪异常潜在特征，从而在训练集中增加异常数据的相关信息；其次，双自编码器将伪异常数据的潜在特征尽可能重构为正常数据而非重构其本身，进而使测试阶段异常数据取得与正常数据差别较大的重构误差，提高模型的检测性能；最后，与相关方法相比，所提方法在MNIST、Fashion-MNIST、CIFAR-10和KDD-CUP99数据集上均取得了更优的检测性能。 2. 提出了基于伪异常生成网络的Deep SVDD。首先，通过最大化正常数据和它们的重构样本之间的重构误差，利用伪异常生成网络生成伪异常数据；然后，将AE中的编码器用作Deep SVDD中的映射网络，并利用正常数据和伪异常数据经过编码器后所得的潜在特征联合确定超球中心；最后，同时对正常数据经AE所得的重构误差以及超球半径进行最小化，求取映射网络的网络连接权重，并确保正常数据的潜在特征落在超球内部，而伪异常数据的潜在特征落在超球外部。在测试阶段，计算待测样本经编码器所得的潜在特征与超球中心之间的距离，以确定其为正常数据或异常数据。与相关方法相比，所提方法在MNIST、CIFAR-10和MVTec AD三个数据集上均取得了更优的检测性能。

关键词

数据集异常检测/深度学习/支持向量数据描述/自编码器/神经网络

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

邢红杰

学位年度

2022

学位授予单位

河北大学

语种

中文

中图分类号

段落导航