首页|基于变分自编码器和遗传算法的高维数据异常检测研究

基于变分自编码器和遗传算法的高维数据异常检测研究

李嘉木

基于变分自编码器和遗传算法的高维数据异常检测研究

李嘉木1
扫码查看

作者信息

  • 1. 南京航空航天大学
  • 折叠

摘要

现代智能信息系统为了满足人们更高的数据分析需求收集了数量规模大特征维度高的数据,检测高维数据中的异常值在众多领域发挥着指示性作用,分析异常数据能够获得隐藏在高维数据复杂表象下更加全面客观的信息。然而维数灾难问题却是解决高维数据异常检测任务的一大挑战。与此同时,随着数据维数的增加,高维数据空间的稀疏性增大,数据特征之间的相关性更加复杂,导致常规的全空间异常检测算法并不能很好地发挥自身的性能。除此之外,现有的高维异常检测方法通常缺乏定位异常特征的能力,而利用顺序搜索算法寻找异常特征需要遍历高维数据集中全部的子空间,计算成本高得令人望而却步,这就使得解释高维异常检测结果变得越来越困难。并且由于绝大多数高维数据集缺乏数据标记,因此还需要考虑无监督式的异常检测以及处理其相应产生的部分假阳点。 因此,为了解决高维数据异常检测所面临的问题,本文提出了一种基于变分自编码器和遗传算法的高维数据异常检测模型(VAGA),能够高效且准确地识别异常,并且通过搜索异常子空间提供分析异常原因的依据。 具体来说,我们利用神经网络构建概率降维变分自编码器来迫使高维数据特征映射到低维数据隐空间,并保证其数据隐空间尽可能接近地表征高维输入。再通过从隐空间分布中随机采样隐向量来重构数据,结合重构概率误差与隐空间中数据分布信息作为衡量数据异常程度的异常分数,将异常分数超过阈值的数据判定为异常值。该模块缓解了维数灾难问题,实现了高效地无监督式异常值检测,降低了下层异常子空间搜索模块的负担。 其次,我们利用遗传算法对异常检测模块获取到的异常值集合进行异常子空间搜索。将异常数据集的子空间进行二进制编码,再重新定义遗传算法的适应度函数来更加合理地评估待测点子空间种群中个体的优劣程度。最后将适应度最高的个体解码得到对应的异常子空间,即待测点所有子空间中的异常程度最高的一个子空间。异常值的异常子空间特征可以用于分析异常产生的原因,增强了异常的可解释性。后续基于异常子空间特征对异常值进行亚分类,其亚分类结果中各项指标表现为正常趋势的点被判定为错误标记的假阳点。将这些假阳点进一步反馈到上层异常检测模块中能够调节变分自编码器网络的权重,从而提高VAGA模型整体的异常检测性能。 最后我们提出的VAGA模型在六个高维公共数据集上与十一个基准模型进行对比,实验结果表明,所提出的方法具有可竞争的异常检测性能,并且能够获得准确的异常子空间特征。

关键词

高维数据/异常检测/变分自编码器/遗传算法/异常子空间

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

王箭

学位年度

2022

学位授予单位

南京航空航天大学

语种

中文

中图分类号

TP
段落导航相关论文