摘要
医学视觉问答旨在给定一张医学图像和一个与之相关的临床问题,期望模型给出一个合理的和令人信服的答案。由于医学影像的复杂性以及临床问题专业性,医学视觉问答存在较大挑战。受到临床上医学图像处理的启发,本文主要从文本、视觉和特征融合三个角度出发研究特征增强的方法,以提高模型的特征表征质量用于答案预测。主要研究内容如下: (1)针对医学文本专业性和数据稀疏性,文本语义信息不足的问题,提出基于文本特征增强的医学视觉问答方法。该方法通过随机重排算法增强数据多样性,提高模型鲁棒性。同时,使用双线性变换自注意力模块来捕获文本序列的全局依赖关系,通过增加线性变换来增强特征的表达能力,从而获得更为准确的注意力分布。通过对比实验、消融实验和可视化实验说明模型在增强文本特征表征能力,建模文本序列间相关性和重要性是十分有效的。 (2)针对医学图像成像过程中可能导致的低对比度、低可见度,以及出现的噪声和伪影问题,本文提出了基于视觉特征增强的方法来解决医学图像质量不高的问题。该方法在视觉特征提取阶段引入并行的卷积块注意力模块与挤压和激励模块两种视觉注意力机制来使模型关注感兴趣的区域和目标,同时抑制无用信息的干扰。对比实验、消融实验和可视化结果证明了该方法能使模型更准确关注目标区域和物体,改善了视觉表征质量,用于答案预测。 (3)针对图像和文本两种异质性信息存在语义鸿沟的问题,本文从建模跨模态间全局依赖关系着手,提出基于跨模态融合增强的医学视觉问答方法。本方法在多模态信息融合时引入跨模态交互式注意力模块,该结构在获得查询向量、关键字向量和值向量后,先两两之间做逐元素乘法,以此加强特征间交互。然后再计算注意力分布以此获得更为准确的跨模态特征间全局依赖关系。对比实验、消融实验和可视化结果证明了该方法能有效捕获全局长程依赖性,提高模型理解能力。 综上所述,本文通过对文本编码、图像编码和跨模态融合阶段对特征进行增强,有效地改善了特征表征质量不高的问题。通过在VQA-RAD数据集上开展的实验证明了本文所提出方法的有效性和在智慧医疗场景的应用价值。