基于时空特征融合的视频摘要算法研究与实现

梁梦男¹

扫码查看

作者信息

1. 山东大学
折叠

摘要

在线视频分享平台已深深渗透到人们日常生活中的方方面面，成为一种新型的娱乐方式，为人们提供丰富的视听体验。然而，随着音视频数据的迅猛增长，从海量视频数据中寻找目标视频将变得极其困难，极大地降低了检索效率。此外，现有的人工智能（AI）视频总结技术以音视频信息为依据生成文字总结，节省用户观看视频的时间，但面对无音频的视频或者音视频内容不匹配的视频时，存在明显的局限。视频摘要技术通过对视频内容的深入分析，提取出富含语义信息的关键帧或视频片段，以此构建摘要。该技术既有效缩短视频长度，节省用户的观看时间，又准确传达出原始视频的核心内容，显著提高检索效率，且不受音频信息的制约，更具灵活性和普适性。然而，现有的视频摘要技术，往往只侧重视频内容的空间建模或者动作信息的时序建模，没有综合考虑两者的共同建模，导致生成的摘要不具有代表性。因此，如何确保摘要结果满足视觉要求和时间逻辑上的一致性，一直是视频摘要领域亟需解决的问题。同时，用户主观性导致摘要结果不一致，以及众多特征提取方案共存的情况下，如何选择最适合的特征，也都需要进行深入研究。针对上述问题，本论文提出两种基于时空特征融合的视频摘要算法，利用注意力机制构建网络结构。同时，基于大模型搭建可视化用户交互系统。本论文的具体的研究工作和取得的进展如下: （1）提出了基于多维度特征和细粒度时序建模的视频摘要算法。本算法针对视频摘要任务中编码器-解码器对时序关系建模不足的问题，从网络架构角度出发，建立了从细粒度到粗粒度的细粒度层次化模型。采用了最适合视频摘要任务的特征提取方式，引入三维卷积神经网络（3D CNN），以捕捉细粒度视频动态特征，弥补二维卷积神经网络（2D CNN）在处理连续帧时，存在缺乏时序相关性的缺陷。利用时序一维卷积降低视频的视觉冗余度，将细粒度时序特征融合为富含中粒度时序信息的特征。此外，采用改进的空洞注意力机制，在进一步降低计算成本的同时，实现对整个视频时序关系的有效建模。实验结果表明，本算法能够精准完成时序建模的过程，可视化结果与用户标注数据的高度一致性，进一步证实本算法的有效性。（2）提出了基于双注意力的无监督分段视频摘要算法。本算法采用不均等分段，保持视频片段的完整性，以捕获正确的短期时序关系。鉴于需要同时对视觉内容和时序信息进行建模，设计了双注意力模块，不仅能够获取视频片段内上下文依赖性，还能完成以重要性视觉内容为导向的权重分配过程。进一步地，在双注意力无监督摘要算法中已有的代表性奖励和多样性奖励基础上，引入故事完整性奖励，使其生成能反映出原视频的时间流和情节发展的摘要。实验结果表明，本算法在强化段内时序依赖性的同时，有效完成了对视频重要性内容的评估，可视化结果也证实了算法所生成的摘要能够密切贴合用户实际需求，证明了算法的优越性和有效性。（3）基于所提细粒度层次化建模的视频摘要算法，引入对比学习的语言-图像预训练模型（CLIP）,设计并实现了一个视频摘要应用系统。考虑到CLIP模型能够实现不同模态数据的一致性表征建模，并为其在查询式视频摘要的应用奠定基础，引入CLIP模型对所提算法做出改进与优化，进一步加强算法对视频内容的分析和理解能力。设计应用系统，嵌入改进后的视频摘要算法，实现用户登录与注册、原始视频文件上传、以及摘要生成与展示三大核心功能，并配置基本组件，以提升用户的使用体验感。

关键词

视频摘要/时空特征融合/卷积神经网络/注意力机制/对比学习

引用本文复制引用

授予学位

硕士

学科专业

通信工程

导师

刘琚

学位年度

2024

学位授予单位

山东大学

语种

中文

中图分类号

段落导航