自动化学报2024,Vol.50Issue(1) :154-168.DOI:10.16383/j.aas.c230117

基于相对离群因子的标签噪声过滤方法

A Label Noise Filtering Method Based on Relative Outlier Factor

侯森寓 姜高霞 王文剑
自动化学报2024,Vol.50Issue(1) :154-168.DOI:10.16383/j.aas.c230117

基于相对离群因子的标签噪声过滤方法

A Label Noise Filtering Method Based on Relative Outlier Factor

侯森寓 1姜高霞 1王文剑2
扫码查看

作者信息

  • 1. 山西大学计算机与信息技术学院 太原 030006
  • 2. 山西大学计算机与信息技术学院 太原 030006;计算智能与中文信息处理教育部重点实验室 太原 030006
  • 折叠

摘要

分类任务中含有类别型标签噪声是传统数据挖掘中的常见问题,目前还缺少针对性方法来专门检测类别型标签噪声.离群点检测技术能用于噪声的识别与过滤,但由于离群点与类别型标签噪声并不具有一致性,使得离群点检测算法无法精确检测分类数据集中的标签噪声.针对这些问题,提出一种基于离群点检测技术、适用于过滤类别型标签噪声的方法——基于相对离群因子(Relative outlier factor,ROF)的集成过滤方法(Label noise ensemble filtering method based on rel-ative outlier factor,EROF).首先,通过相对离群因子对样本进行噪声概率估计;然后,再迭代联合多种离群点检测算法,实现集成过滤.实验结果表明,该方法在大多数含有标签噪声的数据集上,都能保持优秀的噪声识别能力,并显著提升各种分类模型的泛化能力.

Abstract

The presence of categorical label noise in classification tasks is a common issue in traditional data min-ing.Currently,there is a lack of targeted methods specifically designed to detect categorical label noise.While out-lier detection techniques can be used for noise identification and filtering,the lack of consistency between outliers and categorical label noise renders outlier detection algorithms unable to accurately detect label noise in classifica-tion data sets.To address these issues,a method based on outlier detection techniques,called the label noise en-semble filtering method based on relative outlier factor(ROF)(EROF),is proposed for filtering categorical label noise.The EROF method estimates noise probability of samples by using relative outlier factor and then iteratively combinings multiple outlier detection algorithms for ensemble filtering.Experimental results show that this method maintains excellent noise identification capability in most data sets which contain label noise,and significantly im-proves the generalization ability of various classification models.

关键词

分类/标签噪声/离群点检测/相对离群因子/噪声过滤

Key words

Classification/label noise/outlier detection/relative outlier factor(ROF)/noise filtering

引用本文复制引用

基金项目

国家自然科学基金(U21A20513)

国家自然科学基金(62276161)

国家自然科学基金(62076154)

中央引导地方科技发展基金(YDZX20201400001224)

山西省1331工程重点学科建设基金资助()

出版年

2024
自动化学报
中国自动化学会 中国科学院自动化研究所

自动化学报

CSTPCD北大核心
影响因子:1.762
ISSN:0254-4156
参考文献量4
段落导航相关论文