首页|面向视觉问答的上下文感知多模态交互网络

面向视觉问答的上下文感知多模态交互网络

扫码查看
近年来,视觉问答已经引起研究人员的广泛关注.现有的方法通过视觉与语言模态之间的密集交互以捕捉两种模态之间的高层语义信息,然而这些方法仅单独考虑单个词与视觉区域之间的关系,忽略了上下文信息来计算模态之间的依存关系.针对此问题,该文提出了一种上下文感知的多模态交互网络,通过融合上下文信息增强模态内与模态间的信息交互,提高视觉问答的推理能力.该文在大规模基准数据集VQA v2.0上进行了一系列对比实验与消融实验,实验结果表明,该方法在视觉问答任务上能够取得比当前主流的方法更高的准确率.
Context-aware Multi-modality Interactive Network for Visual Question Answering
In recent years,visual question answering has attracted great attention.Existing methods capture high-level semantic information through intensive interaction between vision and language modalities.However,these methods consider only the relationship between words and visual regions,ignoring the context information to calcu-late the dependencies between the modalities.This paper proposes a context-aware multi-modality interactive net-work,which improves the reasoning ability of visual question answering by modeling intra-and inter-modality de-pendencies.A series of comparative experiments and ablation experiments on the large-scale benchmark VQA v2.0 shows that this method can achieve better accuracy than the latest methods on visual question answering.

visual question answeringattention mechanismmulti-modality interactive network

颜洪、黄青松、刘利军

展开 >

昆明理工大学信息工程与自动化学院,云南昆明 650500

云南省计算机技术应用重点实验室,云南昆明 650500

云南大学信息学院,云南昆明 650091

视觉问答 注意力机制 多模态交互网络

国家自然科学基金国家自然科学基金

8186031881560296

2024

中文信息学报
中国中文信息学会,中国科学院软件研究所

中文信息学报

CSTPCDCHSSCD北大核心
影响因子:0.8
ISSN:1003-0077
年,卷(期):2024.38(7)