首页|基于空间注意力推理机制的视觉问答算法研究

基于空间注意力推理机制的视觉问答算法研究

扫码查看
针对现有基于注意力机制的多模态学习,对文字上下文之间的自我联系和图像目标区域的空间位置关系进行了深入研究.在分析现有注意力网络的基础上,提出使用自注意力模块(self-attention,SA)和空间推理注意力模块(spatial reasoning attention,SRA)对文本信息和图像目标进行映射,最终得到融合特征输出.相较于其他注意力机制,SA和SRA可以更好地将文本信息匹配图像目标区域.模型在VQAv2数据集上进行训练和验证,并在VQAv2数据集上达到了64.01%的准确率.
Algorithm of visual question answering based on spatial attention reasoning mechanism

李智涛、周之平、叶琴

展开 >

南昌航空大学 信息工程学院,南昌330063

视觉问答 注意力机制 多模态学习 自注意力 空间推理注意力

国家自然科学基金资助项目

71761028

2021

计算机应用研究
四川省电子计算机应用研究中心

计算机应用研究

CSTPCDCSCD北大核心
影响因子:0.93
ISSN:1001-3695
年,卷(期):2021.(3)
  • 1
  • 1