基于层次注意力机制的高效视觉问答模型

Efficient image question answering model based on layered attention mechanism

吝博强 ¹田文洪¹

扫码查看

作者信息

1. 电子科技大学信息与软件工程学院,成都610054
折叠

摘要

视觉问答(visual question answering,VQA)是深度学习领域的一个新挑战,需要模型同时根据问题的语义和图片的内容进行推理并给出正确答案.针对视觉问答图片输入的多样性,设计了一种由两层注意力机制堆叠组成的层次注意力机制,帮助模型定位图片中与问题相关的信息,其中第一层注意力机制使用目标检测网络提取图片中物体的特征,第二层注意力机制引入问题特征.同时改进了现有的特征融合方式,消除对输入特征尺寸的限制.VQA数据集的测试结果显示,层次注意力机制使计数类问题的回答准确率提升了4％～5％,其他类型的问题回答准确率也有小幅提升.

关键词

视觉问答/注意力机制/特征融合/目标检测

引用本文复制引用

基金项目

国家自然科学基金资助项目(61672136)

国家自然科学基金资助项目(61828202)

出版年

2021

计算机应用研究

四川省电子计算机应用研究中心

计算机应用研究

CSTPCDCSCD北大核心

影响因子：0.93

ISSN：1001-3695

被引量9

参考文献量2

段落导航