基于答案验证和多模态融合的医学视觉问答研究

袁婉娟¹

扫码查看

作者信息

1. 武汉科技大学
折叠

摘要

随着计算机视觉和自然语言处理的快速发展，视觉问答(Visual Question Answering,VQA)任务作为一个新兴的人工智能方向引起了研究者的关注。VQA任务是根据一张给定的图像和一个与之对应的问题，推理出一个最准确的答案，在医学领域具有很大的研究意义与实用价值。目前，医学视觉问答任务存在语言先验性问题，且受限于数据样本不平衡和数据的高噪声性等因素，让模型正确推理出答案是一项具有挑战性的工作。医学视觉问答数据集中问题和答案间的强关联性导致医学视觉问答任务中存在语言先验性问题，模型更加偏向通过问题与答案之间的表面关系回答问题，且数据分布差异导致模型倾向于给出答案集中样本数量多的答案，本文提出一种基于答案验证的两阶段医学视觉问答模型，它将引入答案语义信息与图像内容进行验证推理出更合理可靠的答案。医学数据中往往具有高噪声水平，模型对医学数据的特征表示中含有无关信息，这些无关信息使得模型难以正确识别和理解图像内容，会干扰模型的判断，本文提出一种跨模态噪声信息消除的医学视觉问答模型，引入改进的基于阈值稀疏注意力的融合模块，通过设置注意力得分消除多模态交互中产生的噪声信息，减轻噪声信息对模型的干扰。本文在VQA-Med-2019和VQA-RAD两个医学视觉问答数据集上进行一系列的实验，并从定量和定性两个角度对本文所提模型上进行了具体的实验分析。实验结果表明本文提出的模型在两个数据集上表现良好，相比于其他主流的医学视觉问答模型，在各项指标上均取得了提升。

关键词

医学视觉问答/答案验证/跨模态噪声信息消除/多模态融合/阈值稀疏注意力

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

邱晨

学位年度

2024

学位授予单位

武汉科技大学

语种

中文

中图分类号

段落导航