摘要
视频目标分割将视频序列中的感兴趣目标从背景中分离,其中半监督视频目标分割根据给定的关键帧掩码自动分割后续帧中指定目标,即使该目标在训练集中未出现过。复杂的视频场景给半监督视频目标分割带来了挑战,目前主流的方法有运动传播法和时空记忆匹配法,本文重点研究了如何利用时空记忆实现准确、高效的半监督视频目标分割。 针对半监督视频目标分割方法中对引导帧的利用不充分问题、时空记忆匹配方法对视频的长期时间关系利用不足问题和对目标对象整体缺乏关注问题,首先,研究了长短时指导信息引导分割,然后研究了联合记忆传播与修正的分割方法,最后研究了目标级约束方法。研究工作具体如下: (1)针对目标在序列中发生较大外观变化时,仅使用给定掩码的关键帧引导分割导致精度不高的问题,提出一种基于长短时特征检测的半监督分割模型。长时检测分支除使用初始帧引导分割外,连续记忆历史帧中目标对象的特征向量生成目标隐编码做检测;短时判定分支使用前一相邻帧的关键像素判定当前帧中像素属于前背景的概率。在DAVIS数据集上的实验结果验证了在多种复杂视频场景下均能成功检测到目标。 (2)针对现有基于时空记忆匹配的方法对视频的长期时间关系利用不足,易导致相似物体的错误分割问题,提出一种联合记忆传播与修正的半监督分割模型。记忆传播模块在时间维度连续地记忆历史帧信息,以跟踪目标对象,记忆修正模块根据相邻帧之间的相似性检索可靠的记忆特征,以保持帧间一致性。时空匹配模块建模当前帧与小容量记忆池的像素关系。此方法在序列分割时中保持常量的分割时间和内存占用。在DAVIS和YouTube-VOS数据集上的实验结果验证了结合记忆传播与修正策略可以减少相似物体的错误分割。 (3)针对现有基于时空记忆匹配的分割方法没有充分利用目标的对象级信息的问题,提出一种基于目标约束的半监督分割模型。首先以时空检索机制检索相似像素特征,然后以前一相邻帧的目标信息对当前帧做帧间目标约束,让相邻帧保持一致的目标分割结果,最后将视频帧转换到频域学习高频信息,突出目标轮廓,做帧内目标约束。在DAVIS数据集上的实验结果验证了结合两种目标约束可以有效提升分割精度、提高分割质量。