国家学术搜索
登录
注册
中文
EN
首页
|
基于视频描述和阅读理解的视频问答研究
基于视频描述和阅读理解的视频问答研究
下载
引用
认领
扫码查看
点击上方二维码区域,可以放大扫码查看
原文链接
国家科技期刊平台
NETL
NSTL
万方数据
维普
中文摘要:
针对大多数视频问答(VideoQA)模型将视频和问题嵌入到同一空间进行答案推理所面临的多模态交互困难、视频语义特征保留能力差等问题,提出了一种视频描述机制来获得视频语义特征的文本表示,从而避免了多模态的交互.提出方法将视频特征通过描述机制得到相应的视频描述文本,并将描述文本特征与问题特征进行阅读理解式的交互与分析,最后推理出问题的答案.在MSVD-QA以及MSRVTT-QA数据集上的测试结果显示,提出问答模型的回答准确率较现有模型均有不同程度的提升,说明所提方法能更好地完成视频问答任务.
外文标题:
Research on video question answering based on video description and reading comprehension
收起全部
展开查看外文信息
作者:
胡锦祥、孟朝晖
展开 >
作者单位:
河海大学 计算机与信息学院,南京211100
关键词:
视频问答
视频描述
阅读理解
出版年:
2021
DOI:
10.19734/j.issn.1001-3695.2021.04.0152
计算机应用研究
四川省电子计算机应用研究中心
计算机应用研究
CSTPCD
CSCD
北大核心
影响因子:
0.93
ISSN:
1001-3695
年,卷(期):
2021.
38
(12)
参考文献量
3