摘要
跨模态检索是指以一种模态数据作为查询条件来检索另一种模态的相关数据。现阶段的跨模态检索模型在数据的特征提取、不同模态数据间的交互以及相似度计算等方面仍存在提升的空间。因此本文尝试将多模态预训练模型应用于跨模态检索任务中,进一步提升跨模态检索的效果。本文的主要研究工作可以概括为以下三点: (1)基于公共空间特征学习的跨模态检索方法。该方法首先利用目标检测模型提取图像感兴趣的区域特征,然后利用语言模型提取文本的单词特征,随后利用图文协同注意力机制完成图文数据的交互,学习到图像和文本数据的对齐关系,生成图像和文本的全局表示,用于计算不同模态数据之间的相似度,利用度量学习来缩小不同模态相似样本对间的距离,扩大不同模态不相似样本对之间的距离。最后通过对相似度排序返回相似度最高的结果作为跨模态检索的结果。本方法的跨模态检索效果显著优于传统的公共子空间方法。 (2)基于多层次特征融合的跨模态检索方法。鉴于多模态预训练模型强大的特征表示能力,分别利用单流、双流的多模态预训练模型对图像和文本数据进行编码,并比较了这两者模型的差异性。利用相似度特征融合模块成功地捕捉了图文数据细粒度的对齐关系,并利用无关词汇过滤提高相似度计算的准确性。该方法的跨模态检索效果较基于公共空间特征学习的跨模态检索方法有一定的提升。 (3)基于图网络和对比学习的跨模态检索方法。将图神经网络应用于跨模态检索领域。利用图文数据的局部相似度向量和全局相似度向量作为图的结点构建一个完全图,利用GCN来更新图的节点从而完成相似度的推理,得到最终的图文相似度。该方法捕捉了图文数据更为全面的关联关系。然后利用重写文本描述的方法构造了图像数据对应的文本负样例,完成了数据的增强,最后利用对比学习对模型进行训练。该方法达到了本文所用方法中的最好效果,证明了图神经网络和对比学习在跨模态检索应用中的有效性。