计算机应用研究2021,Vol.38Issue(8) :2293-2298.DOI:10.19734/j.issn.1001-3695.2020.12.0537

基于复合图文特征的视觉问答模型研究

Research on visual question answering model based on composite graphic features

邱南 顾玉宛 石林 李宁 庄丽华 徐守坤
计算机应用研究2021,Vol.38Issue(8) :2293-2298.DOI:10.19734/j.issn.1001-3695.2020.12.0537

基于复合图文特征的视觉问答模型研究

Research on visual question answering model based on composite graphic features

邱南 1顾玉宛 1石林 1李宁 1庄丽华 1徐守坤1
扫码查看

作者信息

  • 1. 常州大学 计算机与人工智能学院 阿里云大数据学院,江苏 常州213164
  • 折叠

摘要

针对当前主流视觉问答(visual question answering,VQA)任务使用区域特征作为图像表示而面临的训练复杂度高、推理速度慢等问题,提出一种基于复合视觉语言的卷积网络(composite visionlinguistic convnet,CVlCN)来对视觉问答任务中的图像进行表征.该方法将图像特征和问题语义通过复合学习表示成复合图文特征,然后从空间和通道上计算复合图文特征的注意力分布,以选择性地保留与问题语义相关的视觉信息.在VQA-v2数据集上的测试结果表明,该方法在视觉问答任务上的准确率有明显的提升,整体准确率达到64.4%.模型的计算复杂度较低且推理速度更快.

关键词

视觉问答/复合视觉语言特征/区域特征/多模态融合

引用本文复制引用

基金项目

出版年

2021
计算机应用研究
四川省电子计算机应用研究中心

计算机应用研究

CSTPCDCSCD北大核心
影响因子:0.93
ISSN:1001-3695
参考文献量2
段落导航相关论文