首页|基于自适应多模特征融合的视觉问答方法研究

基于自适应多模特征融合的视觉问答方法研究

袁德森

基于自适应多模特征融合的视觉问答方法研究

袁德森1
扫码查看

作者信息

  • 1. 电子科技大学
  • 折叠

摘要

视觉问答任务是计算机视觉和自然语言处理两个领域的交叉任务,可智能地理解图像和文本之间的多模态信息。然而,由于数据不平衡,视觉问答方法在多模态特征融合和训练过程中出现了语言偏差问题,即文本信息及特征主导着模型结果。具有语言偏差的视觉问答模型过于依赖于问题和答案之间的相关性,而忽略了图像中的信息,导致模型在应用中鲁棒性较差,模型的可解释性很低。一方面,语言偏差源于数据不平衡以及导致的特征过拟合,即模型过拟合数据集中的头部样本。另一方面,这种过拟合也凸显出目前视觉问答的鲁棒性差。面对实际应用中复杂多变的内容和可能存在的攻击,现有视觉问答方法的准确性和泛化性较差。因此,本文针对基于自适应多模特征融合的视觉问答方法进行了研究: (1)从数据平衡的角度,采用了数据增广和对比学习的方法来平衡数据分布。其中,数据增广技术可以通过生成反事实样本来扩大训练集的数据量,并提高数据分布的平衡性。对比学习可以通过三元组分析,将事实样本、反事实样本和原始样本结合起来,帮助模型学习更准确和鲁棒的特征表示。通过所提出的方法来平衡数据分布,提高了模型性能和鲁棒性。 (2)从特征平衡的角度,提出了泛化不确定性概念,并结合多学生网络进行特征的多视图平衡。泛化不确定性是指模型对新样本的预测结果的不确定性,所提出的方法可以帮助模型减缓过拟合现象,提高模型的泛化能力。多学生网络则可以通过训练多个网络来学习到更加鲁棒的特征表示,防止模型过拟合于某些视图。实验结果表明,所提出的方法能够有效地减缓语言偏差,提高模型的性能和鲁棒性。 (3)从鲁棒性及泛化验证的角度,研究了多模态攻击下带偏视觉问答模型的性能,并提出了协同对抗训练方法。基于对抗样本和原始样本的模型结果应当相同这一假设,通过约束对抗样本和原始样本的特征一致性来提高模型的鲁棒性。此外,还提出了防御性蒸馏方法来降低模型对攻击的敏感性。防御性蒸馏即利用知识蒸馏来平滑梯度,从而来降低原模型的梯度陡峭程度,并提高模型的泛化能力。实验结果表明,它们能够有效地提高模型的鲁棒性和对抗攻击下的性能。

关键词

视觉问答/特征融合/语言偏差/知识蒸馏/对抗攻防

引用本文复制引用

授予学位

硕士

学科专业

信息与通信工程

导师

吴庆波

学位年度

2023

学位授予单位

电子科技大学

语种

中文

中图分类号

TP
段落导航相关论文