计算机研究与发展2022,Vol.59Issue(8) :1637-1652.DOI:10.7544/issn1000-1239.20220053

面向回归任务的数值型标签噪声过滤算法

A Numerical Label Noise Filtering Algorithm for Regression Task

姜高霞 王文剑
计算机研究与发展2022,Vol.59Issue(8) :1637-1652.DOI:10.7544/issn1000-1239.20220053

面向回归任务的数值型标签噪声过滤算法

A Numerical Label Noise Filtering Algorithm for Regression Task

姜高霞 1王文剑2
扫码查看

作者信息

  • 1. 山西大学计算机与信息技术学院 太原 030006
  • 2. 山西大学计算机与信息技术学院 太原 030006;计算智能与中文信息处理教育部重点实验室(山西大学) 太原 030006
  • 折叠

摘要

回归任务中的数值型标签噪声可能误导模型训练,进而弱化模型泛化能力.作为一种常用的标签噪声处理技术,噪声过滤通过去除误标记样本来降低噪声水平,但无法保证过滤后模型能够获得更好的泛化表现.一些过滤算法过于关注噪声水平,以至于大量无噪样本也被去除.尽管已有样本过滤框架能够平衡样本去除量和噪声水平,但其形式过于复杂不利于直观理解和实际应用.根据无噪回归任务中的学习理论提出了面向数值型标签噪声数据的泛化误差界,从而明确了影响模型泛化能力的关键数据因素(数据量和噪声水平).在此基础上提出一种可解释的噪声过滤框架,其目标是以较小的样本去除代价最大程度地降低噪声水平.针对噪声估计问题,从理论上分析了噪声与覆盖区间关键指标(中心和半径)之间的变化趋势,进而构建了相对噪声估计方法.此方法与所提框架结合形成了相对噪声过滤(relative noise filtering,RNF)算法.在标准数据集和年龄估计数据上均验证了算法的有效性.实验结果表明:该算法能够适应各类噪声数据,显著提升模型泛化能力.在年龄估计数据上RNF算法检测出一些标签噪声数据,有效提升了数据质量和模型预测性能.

关键词

数值型标签噪声/回归/噪声过滤/泛化误差界/相对噪声

引用本文复制引用

基金项目

国家自然科学基金(U21A20513)

国家自然科学基金(62076154)

国家自然科学基金(61906113)

国家自然科学基金(U1805263)

山西省国际合作重点研发计划(201903D421050)

山西省高等学校科技创新项目(2020L0007)

出版年

2022
计算机研究与发展
中国科学院计算技术研究所 中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心
影响因子:2.649
ISSN:1000-1239
被引量4
参考文献量3
段落导航相关论文