摘要
视频实例分割(VIS)提供了对视频更深层次的理解,是智能监控、自动驾驶、机器人等领域高级任务的前置任务之一.目前对于图像实例分割已经有很多研究,但是对于视频实例分割的研究却相对较少,而将图像分割方法直接应用到视频领域也存在很多问题,其中实例被遮挡、实例成像差以及高速运动引起实例模糊等异常情况导致的追踪和分割效果差是主要问题.针对该问题,提出一种基于运动跟踪与注意力特征融合的视频实例分割方法(MTFA).该方法利用运动跟踪头依据运动和特征信息在整个视频中跟踪实例并分配实例标签,然后按照实例标签对每一帧中实例去其他帧提取同一实例的特征信息,通过注意力机制融合这些特征信息用以增强当前帧的特征并生成分割掩码.该方法在Youtube-VIS数据集测试中最佳AP为38.3%(ResNet-50)和41.2%(ResNet-101).