计算机技术与发展2023,Vol.33Issue(6) :16-21.DOI:10.3969/j.issn.1673-629X.2023.06.003

基于相对比重的扩展隔离森林算法

Extended Isolation Forest Algorithm Based on Relative Proportion

刘俊成 董东
计算机技术与发展2023,Vol.33Issue(6) :16-21.DOI:10.3969/j.issn.1673-629X.2023.06.003

基于相对比重的扩展隔离森林算法

Extended Isolation Forest Algorithm Based on Relative Proportion

刘俊成 1董东1
扫码查看

作者信息

  • 1. 河北师范大学 计算机与网络空间安全学院,河北 石家庄 050024
  • 折叠

摘要

由于局部离群点被密度相似的正常点掩盖,不易被隔离,使得扩展的隔离森林算法(EIF)对这类离群点的识别效果不理想.针对此问题,提出基于相对比重的扩展隔离森林算法(Relative Proportion-Extended Isolation Forest,RP-EIF).该算法仍然基于随机斜度和随机截距划分超平面,生成隔离森林,但根据预测样本落入的叶子节点与其父节点的相对比重计算离群分数排名,而不使用基于路径长度的排名.把全局排名替换为考虑邻域数据分布局部排名增强了算法对局部离群点的敏感性,同时还减少了算法的时间复杂度.在离群点检测数据库(ODDS)的5 个公开数据集上验证RP-EIF算法的有效性和算法效率,并与EIF算法、GIF算法、iForest算法、COPOD算法、LOF算法进行了对比.实验表明:RP-EIF算法在5 个ODDS公开数据集上的准确率高出EIF算法1 至4 百分点,高出其他5 个算法2 至38 百分点.而且在5 个数据集上的时间消耗RP-EIF算法要比EIF算法减少约30%.

关键词

大数据挖掘/离群点检测/局部离群点/扩展的隔离森林算法/相对比重

引用本文复制引用

基金项目

教育部教育考试院"十四五"规划支撑专项(NEEA2021064)

出版年

2023
计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
参考文献量3
段落导航相关论文