基于自适应多模特征融合的视觉问答方法研究

袁德森¹

扫码查看

作者信息

1. 电子科技大学
折叠

摘要

视觉问答任务是计算机视觉和自然语言处理两个领域的交叉任务，可智能地理解图像和文本之间的多模态信息。然而，由于数据不平衡，视觉问答方法在多模态特征融合和训练过程中出现了语言偏差问题，即文本信息及特征主导着模型结果。具有语言偏差的视觉问答模型过于依赖于问题和答案之间的相关性，而忽略了图像中的信息，导致模型在应用中鲁棒性较差，模型的可解释性很低。一方面，语言偏差源于数据不平衡以及导致的特征过拟合，即模型过拟合数据集中的头部样本。另一方面，这种过拟合也凸显出目前视觉问答的鲁棒性差。面对实际应用中复杂多变的内容和可能存在的攻击，现有视觉问答方法的准确性和泛化性较差。因此，本文针对基于自适应多模特征融合的视觉问答方法进行了研究：（1）从数据平衡的角度，采用了数据增广和对比学习的方法来平衡数据分布。其中，数据增广技术可以通过生成反事实样本来扩大训练集的数据量，并提高数据分布的平衡性。对比学习可以通过三元组分析，将事实样本、反事实样本和原始样本结合起来，帮助模型学习更准确和鲁棒的特征表示。通过所提出的方法来平衡数据分布，提高了模型性能和鲁棒性。（2）从特征平衡的角度，提出了泛化不确定性概念，并结合多学生网络进行特征的多视图平衡。泛化不确定性是指模型对新样本的预测结果的不确定性，所提出的方法可以帮助模型减缓过拟合现象，提高模型的泛化能力。多学生网络则可以通过训练多个网络来学习到更加鲁棒的特征表示，防止模型过拟合于某些视图。实验结果表明，所提出的方法能够有效地减缓语言偏差，提高模型的性能和鲁棒性。（3）从鲁棒性及泛化验证的角度，研究了多模态攻击下带偏视觉问答模型的性能，并提出了协同对抗训练方法。基于对抗样本和原始样本的模型结果应当相同这一假设，通过约束对抗样本和原始样本的特征一致性来提高模型的鲁棒性。此外，还提出了防御性蒸馏方法来降低模型对攻击的敏感性。防御性蒸馏即利用知识蒸馏来平滑梯度，从而来降低原模型的梯度陡峭程度，并提高模型的泛化能力。实验结果表明，它们能够有效地提高模型的鲁棒性和对抗攻击下的性能。

关键词

视觉问答/特征融合/语言偏差/知识蒸馏/对抗攻防

引用本文复制引用

授予学位

硕士

学科专业

信息与通信工程

导师

吴庆波

学位年度

2023

学位授予单位

电子科技大学

语种

中文

中图分类号

段落导航