摘要
随着数据量的激增和多媒体技术的不断改革与创新,通过互联网获取大量图像和视频数据成为可能。然而,并非所有这些数据都具有价值。为了从视频数据中提取重要信息,计算机视觉领域出现了关于视频显著性预测问题的研究。该问题旨在预测视频中每帧图像中可能引起人眼关注的区域,生成显著图。关键挑战在于如何同时处理空间和时间信息,实现视频显著性预测的时空联合。然而,现有方法在效率和准确性方面存在局限性,当前信息时代需要提出更高效、准确的视频显著性时空联合预测方法。本研究深入探讨时空特征建模问题,借助深度学习方法,融合编码器-解码器结构进行时空特征分析和提取,以探索创新解决方案,开展了有意义的视频显著性预测时空特征建模研究。 本文提出了两个不同的具有创新性的视频显著性预测模型。第一部分,首先详细解释了所采用模型的总体结构和时空特征建模方法,概述了模型中的编码器-解码器结构以及关键模块。接着详细介绍了模型的实现细节,展示了各模块重要部分的代码实现,并最终探讨了模型的预测结果、性能对比以及失败案例。其创新点在于对损失函数的改进,提出的TASED-CE模型在修改损失函数后预测效果得到了提升。通过与多种知名模型进行对比,验证了该模型在主流视频显著性预测领域的竞争力,并超越了大多数其他模型。为了对模型的训练方式和内部结构进行进一步的研究,在第二部分,我们提出了一种基于深度学习的视频显著性预测方法,通过编码器实现了对视频内容的全局特征提取。结合提出的F31算法和HDMA分层解码技术,F31-Net能够对视频内容进行局部特征提取和融合,从而准确预测视频的显著性。我们的模型中的分层解码器能够有效地定位显著区域,并整合多维特征以生成最终预测结果。同时,我们的模型结合了静态模型和动态模型的优点,并利用自注意力机制增强了视频内容和运动特征的表达能力。通过时空编码与分层解码以及多维注意机制的结合,在VSP任务中取得了显著的性能。F31算法的集成提升了编码阶段的效果,而分层解码器有效地捕获了不同级别的显著特征。实验和分析结果显示,我们提出的方法在数据集中具有有效性。