基于多特征和Transformer的视频语义理解与描述文本生成研究

郭岚¹

扫码查看

作者信息

1. 兰州理工大学
折叠

摘要

视频内容描述生成需要提取视频的多个模态特征并进行融合，然后生成能表达视频内容的文本，具有较高的研究意义和应用价值，可以应用在无人驾驶、视频内容检索、视频分类等众多应用场景。当前视频内容描述模型大多基于CNN-RNN的编码器解码器架构实现，取得了较好的结果，但仍然存在一些有待解决的问题，包括：（1）现有模型对视频中丰富的模态信息利用不充分；（2）对不同模态之间的交互以及融合研究不够深入；（3）对于视频描述任务数据集中所提供的语义信息利用不足。本文针对以上因素导致视频内容描述不够准确的问题展开研究，主要研究内容如下：（1）提出一种采用协作表示融合图像、音频、运动光流等多种特征的视频内容文本表达模型。首先，采用多种经过大规模数据集预训练的模型提取视频帧特征、运动信息、视频所携带的音频特征以及视频序列特征，设计一个基于自注意力机制的嵌入层结构将单模态特征嵌入并进行特征参数的学习；然后，利用协作表示对嵌入层输出的特征向量进行多模态特征融合，使模型可以利用多种模态中所呈现的不同表征，有效缓解现有模型对多模态信息利用不足的问题。在大型数据集MSR-VTT和LSMDC上进行相关实验结果表明，所提方法一定程度上提升视频内容文本表达的性能，相较于各对比模型，各项评价指标均有一定提升。（2）针对不同源模态间交互信息捕捉不充分以及融合不充分的问题，提出一种Transformer结合模态融合注意力的视频内容描述模型。首先，在特征融合阶段提出一种模态融合注意力，结合Transformer编码器对多特征进行融合编码，提升多模态融合的性能；然后，使用自适应注意机制和LSTM解码器，每个时间步的隐藏状态被用作自适应注意输入，通过自适应注意力机制对不同时刻的特征关注度进行动态调节；最后，模型通过Softmax还原词向量概率矩阵，生成对应的自然语言描述。（3）基于多模态融合表征生成内容描述的研究，提出一种语义指导学习的视频内容描述模型。首先，利用图像相似度算法提出一种场景帧采样方法，用于模型对关键场景帧的选取；然后，利用Transformer编码块构造模型结构编码器，以全局视野学习视觉和语义信息，学习浅层局部和全局特征混合表示的同时，减少对编码器中间隐藏层信息的丢失，缓解网络中长距离依赖的问题；最后，将解码器输出结果与数据集提供的人类真实描述进行无参数度量学习，通过最小化生成描述与人类真实描述之间差异，实现模型端到端的优化。通过在两个基准数据集MSR-VTT和MSVD以及实际工程应用数据集LSMDC上的大量实验表明，所提模型能够有效提升模型描述准确性和泛化能力。

关键词

视频内容文本描述/多模态特征/模态融合注意力/语义指导

引用本文复制引用

授予学位

硕士

学科专业

计算机应用技术

导师

赵宏

学位年度

2022

学位授予单位

兰州理工大学

语种

中文

中图分类号

段落导航