摘要
由于局部离群点被密度相似的正常点掩盖,不易被隔离,使得扩展的隔离森林算法(EIF)对这类离群点的识别效果不理想.针对此问题,提出基于相对比重的扩展隔离森林算法(Relative Proportion-Extended Isolation Forest,RP-EIF).该算法仍然基于随机斜度和随机截距划分超平面,生成隔离森林,但根据预测样本落入的叶子节点与其父节点的相对比重计算离群分数排名,而不使用基于路径长度的排名.把全局排名替换为考虑邻域数据分布局部排名增强了算法对局部离群点的敏感性,同时还减少了算法的时间复杂度.在离群点检测数据库(ODDS)的5 个公开数据集上验证RP-EIF算法的有效性和算法效率,并与EIF算法、GIF算法、iForest算法、COPOD算法、LOF算法进行了对比.实验表明:RP-EIF算法在5 个ODDS公开数据集上的准确率高出EIF算法1 至4 百分点,高出其他5 个算法2 至38 百分点.而且在5 个数据集上的时间消耗RP-EIF算法要比EIF算法减少约30%.
基金项目
教育部教育考试院"十四五"规划支撑专项(NEEA2021064)