首页|基于深度神经网络协同的跨模态哈希检索研究

基于深度神经网络协同的跨模态哈希检索研究

谢亦才

基于深度神经网络协同的跨模态哈希检索研究

谢亦才1
扫码查看

作者信息

  • 1. 重庆邮电大学
  • 折叠

摘要

随着大数据时代的到来,无论在网络社交领域还是在工业领域,诸如文本、图像、视频、医学影像和遥感影像等多媒体数据爆发式增长。如何在这些海量数据中搜索到用户真正需要的数据,所涉及的跨模态检索技术和单模态检索技术受到学术界和工业界的极大关注。其中基于深度哈希的跨模态和单模态检索技术因其存储代价小和计算速度快而被广泛采用。本文重点对跨模态检索中两个或三个神经网络的协同建模展开研究。主要创新性工作总结如下: (1)针对大多数跨模态检索的深度哈希方法使用语义标签只是简单地判断一对实例是相似或不相似,而没有充分利用两个多标签实例之间的不同标签的语义差异程度的问题,本文提出了基于多标签多深度神经网络的跨模态哈希检索算法(MDCMH)。该算法构建了一个多深度神经网络哈希学习框架,包含图像、文本和标签神经网络。在目标函数方面,根据多标签差异信息(多标签中的不同标签)计算语义权重和类中心相似度。并将语义权重嵌入图像、文本和标签网络的三个交叉熵损失项中,以更好地保持模态间和模态内的相似性。此外,类中心相似性应用于图像和文本网络,使相似的实例对分布在类中心周围。实验表明,所提方法能有效提高检索性能。 (2)针对现有跨模态深度哈希检索算法都只能处理静态数据场景的跨模态检索问题,而不能应用于新数据以数据流方式连续到达的场景;针对流数据场景也只有少量在线跨模态哈希检索方法,但它们都基于浅层模型,这将导致次优的检索性能,本文提出了基于协同训练机制的深度在线跨模态哈希算法(DOCHCM),该机制通过两阶段协同训练两个子网络,将深度学习引入在线跨模态哈希。它解决了两个方面的问题。首先,在每一轮中,图像网络通过保持新增图像的输出特征与整个新旧文本的哈希码之间的语义相似性来增量学习新增图像的哈希码;文本网络通过保持新增文本的输出特征与整个新旧图像的哈希码之间的语义相似性来增量学习当前文本的哈希码。第二,知识蒸馏被用于图像和文本子网络,以避免灾难性遗忘,这使得两个子网络不仅能够学习新知识,而且能够防止遗忘旧知识。实验表明,所提方法能够适应流式数据场景,而且检索性能达到当前先进水平。 (3)针对现存在线跨模态哈希检索方法在一个框架中无法同时实现单模态和跨模态检索任务的问题,本文提出了能同时用于单模态和跨模态检索的深度在线哈希(ODHUC)。在深度在线哈希方面,分别用图像和文本基础数据库训练图像和文本神经网络,并学习它们的哈希码。当新数据到达时,从新到的数据和基础数据库中对图像和文本按比例采样,用于训练更新图像和文本网络,并学习新数据的哈希码。在单模态和跨模态两类检索任务方面,分两个阶段完全独立学习图像深度哈希函数和相对独立学习文本深度哈希函数。首先生成图像哈希码,然后利用图像哈希码监督文本哈希码的学习。实验验证了所提方法在在线单模态和跨模态检索中的有效性。 (4)针对现有的在线跨模态哈希方法是通过建模两种模态之间的相关性来实现的,导致无法适应两个模态数据异步到达的问题,本文提出了一种用于跨模态和单模态检索的基于三分支神经网络的异步深度在线哈希算法(ADOH)。它由三个神经网络组成,分别是标签网络、图像和文本网络。首先,当新数据到达时,标签网络学习其标签的语义哈希码。第二,图像网络和文本网络完全独立的通过迫使两种模态的哈希码分别分布在相应的标签哈希码周围来训练两种模态的网络。两种模态的相似实例的哈希码将紧密分布在一起,而远离不同的实例对。通过这种方式,在不直接对齐两种模态相关性的情况下间接实现跨模态哈希检索,从而可以处理两种模态的数据异步到达的情况。此外,由于两个模态网络是完全独立的,所以也可以实现单模态哈希检索。实验表明,所提方法能够解决两个模态数据异步到达的问题。

关键词

哈希检索/在线检索/知识蒸馏/神经网络/跨模态检索

引用本文复制引用

授予学位

博士

学科专业

计算机科学与技术

导师

曾宪华

学位年度

2023

学位授予单位

重庆邮电大学

语种

中文

中图分类号

TP
段落导航相关论文