用于视频修复的连贯语义时空注意力网络

Coherent Semantic Spatial-Temporal Attention Network for Video Inpainting

刘浪 ¹李梁 ¹但远宏¹

扫码查看

作者信息

1. 重庆理工大学计算机科学与工程学院重庆400054
折叠

摘要

现有的视频修复方法通常会产生纹理模糊、结构扭曲的内容以及伪影,而将基于图像的修复模型直接应用于视频修复会导致时间上的不一致.从时间角度出发,提出了一种新的用于视频修复的连贯语义时空注意力(Coherent Semantic Spatial-Temporal Attention,CSSTA)网络,通过注意力层,使得模型关注于目标帧被遮挡而相邻帧可见的信息,以获取可见的内容来填充目标帧的孔区域(hole region).CSSTA层不仅可以对孔特征之间的语义相关性进行建模,还能对远距离信息和孔区域之间的远程关联进行建模.为合成语义连贯的孔区域,提出了一种新的损失函数特征损失(Feature Loss)以取代VGG Loss.模型建立在一个双阶段粗到精的编码器-解码器结构上,用于从相邻帧中收集和提炼信息.在YouTube-VOS和DAVIS数据集上的实验结果表明,所提方法几乎实时运行,并且在修复结果、峰值信噪比(PSNR)和结构相似度(SSIM)3个方面均优于3种代表性视频修复方法.

关键词

视频修复/图像修复/时空注意力/特征损失/VGG/Loss

引用本文复制引用

基金项目

出版年

2021

计算机科学

重庆西南信息有限公司（原科技部西南信息中心）

计算机科学

CSTPCDCSCD北大核心

影响因子：0.944

ISSN：1002-137X

被引量1

参考文献量1

段落导航