基于视频语义理解的视频字幕生成研究

司悦¹

扫码查看

作者信息

1. 内蒙古大学
折叠

摘要

利用计算机算法或深度学习模型自动输出一段视频（主要是几秒到几分钟的短视频）的相关描述（主要是英文描述），这就是视频字幕生成技术。视频字幕生成技术已经发展多年，近年来，基于深度学习的方法占据主导地位，是该领域的主流通用方法。视频字幕生成技术在日常生活中有着丰富的应用和深刻的价值。电视节目的制作需要先选择合适的素材，经过剪辑等处理过后，再添加上字幕。随着互联网的飞速发展，网络上的视频资源数量飞速增长，而这些视频都缺少一定的文字描述。如果对每个视频都进行查看会浪费大量的时间并且也是不现实的，所以需要一种高效的筛选合适的视频素材的方法。此外，如何为视频添加恰当的字幕也是一个问题。视频字幕生成作为人工智能领域的新兴技术，可以很好得解决上述问题。该技术能够为每个网络视频添加长短不一的描述，方便视频的检索，节省选材时间，又能自动为制作好的视频添加字幕，省去了人工添加字幕的工作。此外，视频字幕生成技术在扶残助残方面，在生成短视频或电影的描述字幕方面，在帮助视频检索等方面有着广泛的应用。随着深度学习的发展，视频字幕生成任务从以往的基于模板的方法转变为通过深度学习来提取有效的深度特征，然后使用基于编码器-解码器结构的模型来生成描述。近几年，通过深度学习方法所生成的视频字幕的质量已经远远高于以往的方法。因此基于深度学习方法的视频字幕生成的研究具有扎实的理论依据与重大的现实意义。本文针对视频字幕生成技术展开课题的研究，深入分析了基于视频语义理解的视频字幕生成方法以及相关改进算法，分别从自适应两阶段增强，细粒度自适应循环反馈和无监督生成方法等几个方面展开了研究。在此基础上，提出了三种基于视频语义理解的视频字幕生成的改进方法，具体内容如下：（1）提出了一种基于自适应两阶段模块化网络的视频字幕生成方法。该方法结合了一个自适应门机制来动态过滤具有挑战性的实例，从而提高了字幕的准确性。通过自适应门的简单样本可以直接获得标题，而被自适应门拒绝的困难样本则需要使用语义支持实现预测。此外，设计的框架还包括对比模块和时序转换模块。对比模块使用对比损失在多个粒度上对齐视频特征和文本特征。时间转换模块侧重于视频帧之间的交互，将时间信息整合到全局特征中。（2）提出了基于循环反馈网络的自适应视频字幕生成方法。这是一个逐步利用视频特征和生成的字幕之间的支持能力的模型。受AdaBoost算法的启发，该模型建立一个循环结构，通过循环语言预测来改进输入的视觉特征。参考AdaBoost算法的贪婪选择特性，设置一个质量感知门来评估当前预测文本特征进入下一个循环的必要性，从而降低了模型的复杂性。在细化循环之后，如果置信度分数仍然低于预定义的阈值，模型选择将具有最高置信度分数的特征输出到后续的Transformer解码器。此外，为了促进每次循环中的反馈增强，模型在融合语言预测和视频特征之前构建了一个多级更新模块。为了减轻循环结构计算量的增加，模型采用轻型Transformer编码器代替传统的瓶颈结构的编码器。（3）在视频字幕领域，获取大量高质量对齐的视频文本对仍然很费力，阻碍了其实际应用。因此，提出了隐式视觉和显式关键词注入的无监督视频字幕生成方法。该方法引入了与文本特征相关的视觉信息，以隐式增强文本生成任务的训练。同时，该方法结合句子关键字来显式地增强训练过程。通过为模型注入额外的隐式视觉特征和显式关键字，可以为生成的标题注入更准确的语义信息。上述的方法均在MSVD和MSR-VTT等公开数据集上进行了大量的对比实验和可视化实验。通过将实验结果与已有的方法进行比较和分析，证明了所提出方法的有效性和创新性。

关键词

视频字幕/生成技术/语义理解/深度学习

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

宋晓宁/卢惠林

学位年度

2024

学位授予单位

江南大学

语种

中文

中图分类号

段落导航