基于硬注意力机制的多模态视频字幕的处理

Hard attention based multi-modal fusion for video caption generation

郭宁宁 ¹蒋林华¹

扫码查看

作者信息

1. 上海理工大学光电信息与计算机工程学院,上海200093
折叠

摘要

传统的视频字幕生成模型大多都采用编码器—译码器框架.在编码阶段,使用卷积神经网络对视频进行处理.在解码阶段,使用长短期记忆网络生成视频的相应字幕.基于视频的时序相关性和多模态性,提出了一个混合型模型,即基于硬注意力的多模态视频字幕的生成模型.该模型在编码阶段使用不同的融合模型将视频和音频两种模态进行关联,在解码阶段基于长短期记忆网络的基础上加入了硬注意力机制来生成对视频的描述.这个混合模型在数据集MSR-VTT(Microsoft research video to text)上得到的机器翻译指标较基础模型有0.2％～3.8％的提升.根据实验结果可以判定基于硬注意力机制的多模态混合模型可以生成视频的精准描述字幕.

关键词

编码器—解码器/多模态融合/注意力机制

引用本文复制引用

出版年

2021

计算机应用研究

四川省电子计算机应用研究中心

计算机应用研究

CSTPCDCSCD北大核心

影响因子：0.93

ISSN：1001-3695

参考文献量3

段落导航