中文信息学报2024,Vol.38Issue(7) :106-114.

面向视觉问答的上下文感知多模态交互网络

Context-aware Multi-modality Interactive Network for Visual Question Answering

颜洪 黄青松 刘利军
中文信息学报2024,Vol.38Issue(7) :106-114.

面向视觉问答的上下文感知多模态交互网络

Context-aware Multi-modality Interactive Network for Visual Question Answering

颜洪 1黄青松 2刘利军3
扫码查看

作者信息

  • 1. 昆明理工大学信息工程与自动化学院,云南昆明 650500
  • 2. 昆明理工大学信息工程与自动化学院,云南昆明 650500;云南省计算机技术应用重点实验室,云南昆明 650500
  • 3. 昆明理工大学信息工程与自动化学院,云南昆明 650500;云南大学信息学院,云南昆明 650091
  • 折叠

摘要

近年来,视觉问答已经引起研究人员的广泛关注.现有的方法通过视觉与语言模态之间的密集交互以捕捉两种模态之间的高层语义信息,然而这些方法仅单独考虑单个词与视觉区域之间的关系,忽略了上下文信息来计算模态之间的依存关系.针对此问题,该文提出了一种上下文感知的多模态交互网络,通过融合上下文信息增强模态内与模态间的信息交互,提高视觉问答的推理能力.该文在大规模基准数据集VQA v2.0上进行了一系列对比实验与消融实验,实验结果表明,该方法在视觉问答任务上能够取得比当前主流的方法更高的准确率.

Abstract

In recent years,visual question answering has attracted great attention.Existing methods capture high-level semantic information through intensive interaction between vision and language modalities.However,these methods consider only the relationship between words and visual regions,ignoring the context information to calcu-late the dependencies between the modalities.This paper proposes a context-aware multi-modality interactive net-work,which improves the reasoning ability of visual question answering by modeling intra-and inter-modality de-pendencies.A series of comparative experiments and ablation experiments on the large-scale benchmark VQA v2.0 shows that this method can achieve better accuracy than the latest methods on visual question answering.

关键词

视觉问答/注意力机制/多模态交互网络

Key words

visual question answering/attention mechanism/multi-modality interactive network

引用本文复制引用

基金项目

国家自然科学基金(81860318)

国家自然科学基金(81560296)

出版年

2024
中文信息学报
中国中文信息学会,中国科学院软件研究所

中文信息学报

CSTPCDCHSSCD北大核心
影响因子:0.8
ISSN:1003-0077
段落导航相关论文