首页|深度跨媒体哈希关键技术研究

深度跨媒体哈希关键技术研究

王彤

深度跨媒体哈希关键技术研究

王彤1
扫码查看

作者信息

  • 1. 山东师范大学
  • 折叠

摘要

随着多媒体数据的爆炸式增长,跨模态检索已成为多媒体计算和信息检索领域的研究热点。跨模态检索方法以某类模态的数据为查询对象,检索其他模态中的相关数据。它打破了传统的以图片搜索图片,文本搜索文本为主的单模态检索模式的局限性,开辟了一种全新的方式来有效地支持多模态数据检索。然而,大规模的跨模态检索在存储消耗和检索速度上都面临着巨大的挑战。跨模态哈希将高维多模态数据(如文本、音频、图像、视频等)投影到公共的低维汉明空间中,并保持原始特征空间中媒体间和媒体内的语义一致性。它的提出有效的加快了大规模跨模态检索的速度以及降低了存储开销。深度跨模态哈希能够同时进行深度特征学习和哈希学习,显著地提高了跨媒体哈希的检索精度。 虽然已有的深度跨模态哈希方法取得了一定的研究成果,但仍然存在两个重要问题:(1)现有的无监督深度跨模态哈希方法大多缺乏语义标签的指导,使得学习到的哈希码中所包含的语义信息十分有限,而语义信息的不足将直接影响检索精度;(2)现有的有监督深度跨模态哈希方法平等地处理不同的跨模态检索任务(图像检索文本和文本检索图像),它们通常以对称的方式来学习相同的哈希函数,从而忽略了不同跨模态检索任务之间的差异,这可能会导致次优的性能。 针对问题(1),本文提出一种基于虚拟标签回归的无监督深度跨模态哈希算法。该算法提出了一种统一的学习框架,能够同时进行深度哈希函数训练、虚拟标签学习和回归。具体来说,该方法在多模态深度表示的基础上,通过协同矩阵分解学习统一的哈希码,以保证多个模态共享相同的语义。此外,目标函数进一步引入虚拟标签的概念,并将学习到的虚拟标签回归到哈希码中,为哈希学习提供了强有力的语义监督,提高了跨模态检索性能。最后,该方法设计了一种迭代的优化策略来直接更新深度哈希函数和离散二值哈希码,并通过迭代学习逐步提高哈希码的判别能力。在三个公开的跨媒体检索数据集上的大量实验验证了该算法的有效性。 针对问题(2),本文提出一种任务自适应的非对称深度跨模态哈希算法。该算法通过同时进行模态表示和非对称哈希学习为不同的跨模态检索任务学习任务自适应的哈希函数。与以往的深度跨模态哈希方法不同,该方法所提出的学习框架联合优化了从多模态特征到哈希码的语义保留,以及从特定查询表示到显式标签的语义回归。该方法学习的哈希码能够有效地保持多模态数据之间的语义关联,同时自适应地捕获查询语义。此外,还设计了一种可直接学习二值哈希码的离散优化策略,有效地减轻了松弛量化误差。在两个公开跨媒体检索数据集上的大量实验从多个方面验证了所提出方法的优越性。

关键词

数据集/跨媒体检索/语义一致性/深度特征学习/哈希学习

引用本文复制引用

授予学位

硕士

学科专业

计算机软件与理论

导师

朱磊

学位年度

2020

学位授予单位

山东师范大学

语种

中文

中图分类号

TP
段落导航相关论文