计算机技术与发展2022,Vol.32Issue(10) :26-33,40.DOI:10.3969/j.issn.1673-629X.2022.10.005

基于相关子空间的扩展隔离森林离群检测算法

An Extended Isolation Forest Outlier Detection Algorithm Based on Relevant Subspace

刘佳 朱鹏云 荀亚玲
计算机技术与发展2022,Vol.32Issue(10) :26-33,40.DOI:10.3969/j.issn.1673-629X.2022.10.005

基于相关子空间的扩展隔离森林离群检测算法

An Extended Isolation Forest Outlier Detection Algorithm Based on Relevant Subspace

刘佳 1朱鹏云 1荀亚玲1
扫码查看

作者信息

  • 1. 太原科技大学 计算机科学与技术学院,山西 太原 030024
  • 折叠

摘要

扩展隔离森林离群检测作为一种集成离群检测方法,可选取随机斜率的超平面,具有将离群数据与正常数据对象快速分离,时间复杂度较低等优点,但隔离树超平面选取在数据集密集区域或含有无关维度数据区域时,严重影响了其离群检测的效果.采用相关子空间思想和方法,提出了一种扩展隔离森林离群检测算法.该算法利用高斯混合模型确定数据对象的相关子空间,从而保证了能够在稀疏数据区域中选取隔离树的切割超平面;隔离树分枝分割优先在稀疏数据区域中,选择隔离树超平面的随机截距点,可快速地将离群数据对象从稀疏数据区域中隔离出来,从而避免了在超平面的随机斜率选取时无关属性维度的干扰;将每个数据对象在各隔离树上的平均路径长度归一化后作为离群得分,并选取离群得分最大的若干个数据对象作为离群数据;在UCI数据集上通过实验验证了该算法的有效性,以及抽样数、隔离树个数和近邻数参数对其离群检测效果的影响.

关键词

离群检测/扩展隔离森林/相关子空间/高斯混合模型/稀疏数据区域

引用本文复制引用

基金项目

国家自然科学基金(61602335)

山西省自然科学基金(201901D211302)

出版年

2022
计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
参考文献量6
段落导航相关论文