首页|融合视觉词与自注意力机制的视频目标分割

融合视觉词与自注意力机制的视频目标分割

扫码查看
目的 视频目标分割(video object segmentation,VOS)是在给定初始帧的目标掩码条件下,实现对整个视频序列中感兴趣对象的分割,但是视频中往往会出现目标形状不规则、背景中存在干扰信息和运动速度过快等情况,影响视频目标分割质量.对此,本文提出一种融合视觉词和自注意力机制的视频目标分割算法.方法 对于参考帧,首先将其图像输入编码器中,提取分辨率为原图像1/8的像素特征.然后将该特征输入由若干卷积核构成的嵌入空间中,并将其结果上采样至原始尺寸.最后结合参考帧的目标掩码信息,通过聚类算法对嵌入空间中的像素进行聚类分簇,形成用于表示目标对象的视觉词.对于目标帧,首先将其图像通过编码器并输入嵌入空间中,通过单词匹配操作用参考帧生成的视觉词来表示嵌入空间中的像素,并获得多个相似图.然后,对相似图应用自注意力机制捕获全局依赖关系,最后取通道方向上的最大值作为预测结果.为了解决目标对象的外观变化和视觉词失配的问题,提出在线更新机制和全局校正机制以进一步提高准确率.结果 实验结果表明,本文方法在视频目标分割数据集DAVIS(densely annotated video segmentation)2016和DAVIS 2017上取得了有竞争力的结果,区域相似度与轮廓精度之间的平均值J&F-mean(Jaccard and F-score mean)分别为83.2%和72.3%.结论 本文提出的算法可以有效地处理由遮挡、变形和视点变化等带来的干扰问题,实现高质量的视频目标分割.
Visual words and self-attention mechanism fusion based video object segmentation method

季传俊、陈亚当、车洵

展开 >

南京信息工程大学计算机学院、软件学院、网络空间安全学院,南京 210044

数字取证教育部工程研究中心,南京 210044

南京众智维信息科技有限公司,南京 210006

视频目标分割(VOS) 聚类算法 视觉词 自注意力机制 在线更新机制 全局校正机制

国家自然科学基金

61802197

2022

中国图象图形学报
中国科学院遥感应用研究所,中国图象图形学学会 ,北京应用物理与计算数学研究所

中国图象图形学报

CSTPCDCSCD北大核心
影响因子:1.111
ISSN:1006-8961
年,卷(期):2022.27(8)
  • 1
  • 3