基于自监督学习的视频目标分割算法研究

洪德祥¹

扫码查看

作者信息

1. 中国科学院大学
折叠

摘要

视频目标分割是计算机视觉的一项基础任务，在视频编辑、自动驾驶、高清视频压缩、人机交互等领域具有广泛的应用场景。视频目标分割是旨在根据第一帧中指定的感兴趣目标，在整个输入视频序列中对目标进行高质量的分割。然而由于视频目标分割任务的人工标注非常复杂，现阶段仍然缺乏大量的人工标注数据，近年来，基于自监督学习的视频目标分割算法发展迅猛，目的是希望通过挖掘视频信息固有的内在结构，减少对标注数据的依赖。但是基于自监督的视频目标分割算法仍然存在以下困难。第一，大部分现有的自监督算法是利用主干网络提取特征进行像素点的匹配，从而将第一帧标注的分割结果传播到后续视频帧中，得到预测的分割结果。但是，由于视频的不连续性（例如遮挡、快速运动和运动模糊），直接进行像素级匹配经常会导致预测结果中掺杂着大量噪声。第二，以往的工作仅仅使用像素级视频着色或者循环一致性做为辅助任务，使用重建视频帧和原始视频帧之间逐像素误差的平均值作为监督信号，使得网络只感知到低层次的颜色及纹理信息，因此网络仅学习到表观特征却无法获得高层语义信息。针对问题一，本文提出了基于协作优化网络的自监督视频目标分割方法，引入有监督方法中常用的编码-解码架构，缓解以往点对点匹配框架预测结果噪声较大的问题。该模型由记忆检索模块和协作优化模块组成，其中记忆检索模块包括一个编码网络和一个外部记忆单元，负责学习视频帧的特征表示、执行稳健的像素级匹配并将分割图从多帧传播到后续帧。协作优化模块获取参考帧和查询帧信息并隐式学习它们之间的协作关系以细化传播的分割图，缓解由于标签传播造成的误差累积。此外，我们设计了两种分割图初始化策略——空间显著性生成和运动显著性生成，有效训练协作优化网络，提升分割的准确性。针对问题二，本文提出了基于渐进优化网络的自监督视频目标分割方法，有效结合像素级相似性和帧级相似性两种自监督任务的优点，学习兼顾表观和高层语义信息的鲁棒特征，提升标签传播的准确性。除此之外，针对现有像素级相似性学习方法容易受到传播图像结果中噪声的直接干扰，我们引入预先训练好的自编码器，首先进行特征匹配传播，之后再根据特征传播结果利用自编码器完成重建任务，从而使特征提取网络更关注匹配任务的学习，进一步提升标签传播的准确性。最后以DAVIS和YouTube-VOS为主要评测数据集，与其它先进的方法开展了详细的对比实验。实验表明，本文提出的算法具有更高的精度和扩展性，具有较大的应用价值。

关键词

视频目标分割/自监督学习/视频着色/对比学习/记忆检索

引用本文复制引用

授予学位

硕士

学科专业

计算机应用技术

导师

李国荣

学位年度

2022

学位授予单位

中国科学院大学

语种

中文

中图分类号

段落导航