基于帧间时空信息建模的视频显著性预测

张正泰¹

扫码查看

作者信息

1. 吉林大学
折叠

摘要

随着数据量的激增和多媒体技术的不断改革与创新，通过互联网获取大量图像和视频数据成为可能。然而，并非所有这些数据都具有价值。为了从视频数据中提取重要信息，计算机视觉领域出现了关于视频显著性预测问题的研究。该问题旨在预测视频中每帧图像中可能引起人眼关注的区域，生成显著图。关键挑战在于如何同时处理空间和时间信息，实现视频显著性预测的时空联合。然而，现有方法在效率和准确性方面存在局限性，当前信息时代需要提出更高效、准确的视频显著性时空联合预测方法。本研究深入探讨时空特征建模问题，借助深度学习方法，融合编码器-解码器结构进行时空特征分析和提取，以探索创新解决方案，开展了有意义的视频显著性预测时空特征建模研究。本文提出了两个不同的具有创新性的视频显著性预测模型。第一部分，首先详细解释了所采用模型的总体结构和时空特征建模方法，概述了模型中的编码器-解码器结构以及关键模块。接着详细介绍了模型的实现细节，展示了各模块重要部分的代码实现，并最终探讨了模型的预测结果、性能对比以及失败案例。其创新点在于对损失函数的改进，提出的TASED-CE模型在修改损失函数后预测效果得到了提升。通过与多种知名模型进行对比，验证了该模型在主流视频显著性预测领域的竞争力，并超越了大多数其他模型。为了对模型的训练方式和内部结构进行进一步的研究，在第二部分，我们提出了一种基于深度学习的视频显著性预测方法，通过编码器实现了对视频内容的全局特征提取。结合提出的F31算法和HDMA分层解码技术，F31-Net能够对视频内容进行局部特征提取和融合，从而准确预测视频的显著性。我们的模型中的分层解码器能够有效地定位显著区域，并整合多维特征以生成最终预测结果。同时，我们的模型结合了静态模型和动态模型的优点，并利用自注意力机制增强了视频内容和运动特征的表达能力。通过时空编码与分层解码以及多维注意机制的结合，在VSP任务中取得了显著的性能。F31算法的集成提升了编码阶段的效果，而分层解码器有效地捕获了不同级别的显著特征。实验和分析结果显示，我们提出的方法在数据集中具有有效性。

关键词

视频显著性预测/帧间时空信息建模/全局特征提取/自注意力机制

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

孙铭会

学位年度

2024

学位授予单位

吉林大学

语种

中文

中图分类号

段落导航