摘要
作为计算机视觉和信息检索领域中一项具有挑战性的任务,跨模态哈希检索旨在将来自不同源的多模态数据(例如文本和图像)通过哈希算法映射到二进制的汉明空间中,以便于进行高效检索。在此项任务中,关键问题之一在于如何将高维的原始数据转换成紧凑的二进制哈希码,同时确保这些哈希码能够准确地反映出不同模态数据之间的相似度关系。 跨模态哈希检索任务往往要求兼顾全局与局部信息。现有的基于Transformer的跨模态哈希检索算法虽强于全局视角的信息捕获,但在捕捉局部细节上存在短板。本文研究的重点之一就是如何增强Transformer在跨模态哈希检索任务中对局部信息的捕捉与整合能力,同时保持其全局信息处理的优势。除此之外,哈希编码常常伴随着信息损失,这会对检索准确度产生不利影响。所以探究如何在减少哈希损失的同时赋予哈希码更丰富的视觉信息也是本文研究的重点。为了应对上述问题,本文主要展开了以下两方面的研究工作: 首先,本文提出基于正交分解的多头哈希模型(Multi-head Hashing with Orthogonal Decomposition,MHOD)的跨模态哈希检索算法,在MHOD中,引入一个正交分解模块处理来自Transformer编码器产生的tokens及其全局特征,将这些tokens和全局特征进行解耦作为局部特征表示。随后将这些局部特征与全局特征一同输入到本文设计的多头哈希层,生成各自的哈希码。借鉴池化操作的思想,进一步聚合生成的二进制代码,确保局部和全局信息得以在统一的二进制编码中有机融合,以获得更好的特征表示能力。 其次,本文提出了一种基于多头切片Wasserstein距离(Multi-head Sliced Wasserstein Distance,MSWD)的哈希学习算法,用于跨模态哈希检索。MSWD方法通过引入一种基于Wasserstein距离的新颖损失函数,旨在优化哈希编码的质量。传统的Wasserstein距离计算复杂、难以优化,为此重新设计了 MSWD距离来近似Wasserstein距离,既适应哈希损失的特定度量,又便于优化。MSWD在更适合于哈希损失的度量和优化问题的同时,还借鉴了多头注意力机制的思想,可以从多个视角描述数据,使得每个视角都可以捕获数据的不同属性。通过这种方式,即便在量化过程中发生了某种程度的信息丢失,多视角整合的信息也能有效地重建或补充丢失的内容,从而保持了编码内容的丰富性。 综上所述,本文的研究不仅针对跨模态哈希检索的核心问题提供了切实可行的解决方案,同时也通过一系列实验,证明了本文提出的MHOD与MSWD算法在跨模态检索数据集上的高效性和有效性。