首页|融合知识表征的多模态Transformer场景文本视觉问答

融合知识表征的多模态Transformer场景文本视觉问答

扫码查看
目的 现有视觉问答方法通常只关注图像中的视觉物体,忽略了对图像中关键文本内容的理解,从而限制了图像内容理解的深度和精度.鉴于图像中隐含的文本信息对理解图像的重要性,学者提出了针对图像中场景文本理解的"场景文本视觉问答"任务以量化模型对场景文字的理解能力,并构建相应的基准评测数据集TextVQA(text visual question answering)和 ST-VQA(scene text visual question answering).本文聚焦场景文本视觉问答任务,针对现有基于自注意力模型的方法存在过拟合风险导致的性能瓶颈问题,提出一种融合知识表征的多模态Trans-former 的场景文本视觉问答方法,有效提升了模型的稳健性和准确性.方法 对现有基线模型M4C(multimodal multi-copy mesh)进行改进,针对视觉对象间的"空间关联"和文本单词间的"语义关联"这两种互补的先验知识进行建模,并在此基础上设计了一种通用的知识表征增强注意力模块以实现对两种关系的统一编码表达,得到知识表征增强的 KR-M4C(knowledge-representation-enhanced M4C)方法.结果 在 TextVQA 和 ST-VQA 两个场景文本视觉问答基准评测集上,将本文KR-M4C方法与最新方法进行比较.本文方法在TextVQA数据集中,相比于对比方法中最好的结果,在不增加额外训练数据的情况下,测试集准确率提升2.4%,在增加ST-VQA数据集作为训练数据的情况下,测试集准确率提升1.1%;在ST-VQA数据集中,相比于对比方法中最好的结果,测试集的平均归一化Levenshtein相似度提升5%.同时,在TextVQA数据集中进行对比实验以验证两种先验知识的有效性,结果表明提出的KR-M4C模型提高了预测答案的准确率.结论 本文提出的KR-M4C方法的性能在TextVQA和ST-VQA两个场景文本视觉问答基准评测集上均有显著提升,获得了在该任务上的最好结果.
Knowledge-representation-enhanced multimodal Transformer for scene text visual question answering

余宙、俞俊、朱俊杰、匡振中

展开 >

杭州电子科技大学计算机学院复杂系统建模与仿真教育部重点实验室,杭州 310018

场景文本视觉问答 知识表征 注意力机制 Transformer 多模态融合

国家重点研发计划国家自然科学基金国家自然科学基金浙江省自然科学基金浙江省自然科学基金

2020YFB14067016207214762125201LR22F020001LY22F020028

2022

中国图象图形学报
中国科学院遥感应用研究所,中国图象图形学学会 ,北京应用物理与计算数学研究所

中国图象图形学报

CSTPCDCSCD北大核心
影响因子:1.111
ISSN:1006-8961
年,卷(期):2022.27(9)
  • 43