结合时空注意力多层特征融合的视频显著性预测研究

罗慧瑜¹

扫码查看

作者信息

1. 湘潭大学
折叠

摘要

随着社交媒体的迅猛发展和拍摄设备的急剧增多，视频的传播和获取变得越来越容易。如何有效获取视频中的重要信息成为了我们的迫切需求。在计算机视觉领域，视频显著性预测任务旨在模拟人类视觉注意力机制，从复杂的视觉信息中过滤无关信息，预测人类所关注的重要区域。视频显著性预测已作为上游任务广泛应用于视频编辑、视频内容推荐等领域。视频序列中的时空信息是完成视频显著性预测任务的基础。因此，如何获取更加有效的时空信息以及合理地融合时空信息成为视频显著性预测任务中亟待解决的问题。本文结合时空注意力和多层特征融合对视频显著性预测任务展开研究，主要工作如下: (1)提出了一个多头自注意力构建全局关联的网络结构。本文通过3D卷积从输入的视频序列中提取多层局部时空特征，引入了VideoSwinTransformer以多头自注意力在最高层时空特征上构建全局关联。最后，本文利用3D卷积融合多层时空特征完成视频显著性预测。该网络结构有效地从局部时空特征中获取了全局信息，同时也避免了模型复杂度剧增。 (2)提出了一个注意力引导多层特征融合的模块。根据高层特征与低层特征之间的差异:高层特征包含指向显著性区域的语义信息，低层特征包含轮廓、边缘等底层信息，该模块以高层特征计算时空注意力图和通道注意力图，注意力图代表高层语义特征中重要的时空位置和通道。该模块通过注意力图引导高层特征与低层特征融合，有效地结合了各层的时空特征以预测显著性结果。 (3)本文在四个视频显著性预测任务的公开数据集上进行了实验与分析，通过消融实验验证了全局时空关联网络结构和注意力引导融合模块的有效性，实验结果表明本文提出的模型在多个评价指标上取得了最优或者次优的结果。相比于当前最优的模型，本文提出的模型具有更低的复杂度，实现了性能和效率的平衡。最后，本文对一些在全局时空关联网络结构和注意力引导融合模块中具有不同设计的模型变体进行了讨论，结果表明本文提出的模型比其他模型变体具有更优的性能。

关键词

视频显著性预测/时空注意力/特征融合/全局时空关联/Transformer模型

引用本文复制引用

授予学位

硕士

学科专业

信息与通信工程

导师

肖芬

学位年度

2023

学位授予单位

湘潭大学

语种

中文

中图分类号

段落导航