视觉弱监督学习研究进展

扫码查看

原文链接

NETL
NSTL
万方数据
维普

中文摘要：视觉理解,如物体检测、语义和实例分割以及动作识别等,在人机交互和自动驾驶等领域中有着广泛的应用并发挥着至关重要的作用.近年来,基于全监督学习的深度视觉理解网络取得了显著的性能提升.然而,物体检测、语义和实例分割以及视频动作识别等任务的数据标注往往需要耗费大量的人力和时间成本,已成为限制其广泛应用的一个关键因素.弱监督学习作为一种降低数据标注成本的有效方式,有望对缓解这一问题提供可行的解决方案,因而获得了较多的关注.围绕视觉弱监督学习,本文将以物体检测、语义和实例分割以及动作识别为例综述国内外研究进展,并对其发展方向和应用前景加以讨论分析.在简单回顾通用弱监督学习模型,如多示例学习(multiple instance learning,MIL)和期望—最大化(expectation-maximization,EM)算法的基础上,针对物体检测和定位,从多示例学习、类注意力图机制等方面分别进行总结,并重点回顾了自训练和监督形式转换等方法;针对语义分割任务,根据不同粒度的弱监督形式,如边界框标注、图像级类别标注、线标注或点标注等,对语义分割研究进展进行总结分析,并主要回顾了基于图像级别类别标注和边界框标注的弱监督实例分割方法;针对视频动作识别,从电影脚本、动作序列、视频级类别标签和单帧标签等弱监督形式,对弱监督视频动作识别的模型与算法进行回顾,并讨论了各种弱监督形式在实际应用中的可行性.在此基础上,进一步讨论视觉弱监督学习面临的挑战和发展趋势,旨在为相关研究提供参考.

外文标题：Progress in weakly supervised learning for visual understanding

作者：

任冬伟、王旗龙、魏云超、孟德宇、左旺孟

展开 >

作者单位：

哈尔滨工业大学,哈尔滨 150001

天津大学,天津 300350

北京交通大学,北京 100091

西安交通大学,西安 710049

展开 >

关键词：

弱监督学习目标定位目标检测语义分割实例分割动作识别

基金：

科技创新2030新一代人工智能重大项目国家自然科学基金国家自然科学基金

项目编号：

2021ZD011210062172127U19A2073

出版年：

2022

中国图象图形学报

中国科学院遥感应用研究所,中国图象图形学学会 ,北京应用物理与计算数学研究所

中国图象图形学报

CSTPCDCSCD北大核心

影响因子：1.111

ISSN：1006-8961

年,卷(期)：2022.27(6)

被引量4
参考文献量151