融合视觉词与自注意力机制的视频目标分割

扫码查看

原文链接

NETL
NSTL
万方数据
维普

中文摘要：目的视频目标分割(video object segmentation,VOS)是在给定初始帧的目标掩码条件下,实现对整个视频序列中感兴趣对象的分割,但是视频中往往会出现目标形状不规则、背景中存在干扰信息和运动速度过快等情况,影响视频目标分割质量.对此,本文提出一种融合视觉词和自注意力机制的视频目标分割算法.方法对于参考帧,首先将其图像输入编码器中,提取分辨率为原图像1/8的像素特征.然后将该特征输入由若干卷积核构成的嵌入空间中,并将其结果上采样至原始尺寸.最后结合参考帧的目标掩码信息,通过聚类算法对嵌入空间中的像素进行聚类分簇,形成用于表示目标对象的视觉词.对于目标帧,首先将其图像通过编码器并输入嵌入空间中,通过单词匹配操作用参考帧生成的视觉词来表示嵌入空间中的像素,并获得多个相似图.然后,对相似图应用自注意力机制捕获全局依赖关系,最后取通道方向上的最大值作为预测结果.为了解决目标对象的外观变化和视觉词失配的问题,提出在线更新机制和全局校正机制以进一步提高准确率.结果实验结果表明,本文方法在视频目标分割数据集DAVIS(densely annotated video segmentation)2016和DAVIS 2017上取得了有竞争力的结果,区域相似度与轮廓精度之间的平均值J&F-mean(Jaccard and F-score mean)分别为83.2％和72.3％.结论本文提出的算法可以有效地处理由遮挡、变形和视点变化等带来的干扰问题,实现高质量的视频目标分割.

外文标题：Visual words and self-attention mechanism fusion based video object segmentation method

作者：

季传俊、陈亚当、车洵

展开 >

作者单位：

南京信息工程大学计算机学院、软件学院、网络空间安全学院,南京 210044

数字取证教育部工程研究中心,南京 210044

南京众智维信息科技有限公司,南京 210006

关键词：

视频目标分割(VOS) 聚类算法视觉词自注意力机制在线更新机制全局校正机制

基金：

国家自然科学基金

项目编号：

61802197

出版年：

2022

中国图象图形学报

中国科学院遥感应用研究所,中国图象图形学学会 ,北京应用物理与计算数学研究所

中国图象图形学报

CSTPCDCSCD北大核心

影响因子：1.111

ISSN：1006-8961

年,卷(期)：2022.27(8)

被引量1
参考文献量3