基于视频描述和阅读理解的视频问答研究

Research on video question answering based on video description and reading comprehension

胡锦祥 ¹孟朝晖¹

扫码查看

作者信息

1. 河海大学计算机与信息学院,南京211100
折叠

摘要

针对大多数视频问答(VideoQA)模型将视频和问题嵌入到同一空间进行答案推理所面临的多模态交互困难、视频语义特征保留能力差等问题,提出了一种视频描述机制来获得视频语义特征的文本表示,从而避免了多模态的交互.提出方法将视频特征通过描述机制得到相应的视频描述文本,并将描述文本特征与问题特征进行阅读理解式的交互与分析,最后推理出问题的答案.在MSVD-QA以及MSRVTT-QA数据集上的测试结果显示,提出问答模型的回答准确率较现有模型均有不同程度的提升,说明所提方法能更好地完成视频问答任务.

关键词

视频问答/视频描述/阅读理解

引用本文复制引用

出版年

2021

计算机应用研究

四川省电子计算机应用研究中心

计算机应用研究

CSTPCDCSCD北大核心

影响因子：0.93

ISSN：1001-3695

参考文献量3

段落导航