融合跨域语义的图像搜索研究

张港鉴¹

扫码查看

作者信息

1. 北京交通大学
折叠

摘要

融合跨域语义的图像搜索是一项新兴且具有挑战性的研究，它将若干个不同模态（如图像，文本，语音信号等）的语义信息融合成一个查询，去搜索数据库中的图像。由于综合多个模态的互补信息，这种查询方式能更好地建模用户的搜索意图，这种图像搜索也在诸如交互式商品搜索，精细化物品搜索等场合，具有广泛的应用前景。然而，融合跨域语义图像搜索的关键在于解决不同模态之间存在的异构鸿沟问题。为了解决这个关键性问题，本文以图像和文本两种异构模态为对象，展开研究工作，提出了三种多模态（图像和文本）组合图像搜索方法。本文主要的研究成果和创新如下：（1）提出了一种异构融合和跨模态匹配联合优化的组合图像搜索方法。现有的方法着重于解决异构融合问题，却忽略了更加关键的异构匹配问题，导致匹配的不准确。为了解决这个问题，本文通过多模态互补融合模块和跨模态引导池化模块来生成一个富集的融合查询向量。另外，通过相对字幕感知一致性约束来创造一个能对齐异构特征语义的空间，从而解决了异构匹配问题。实验表明，本方法在搜索精度上优于现有的方法。（2）提出了一种显式图像语义删除和文本填充的组合图像搜索方法。现有的方法通过隐式的融合来解决异构融合问题，这种融合方式会引入参考图像中与所需图像无关的噪声。为了解决这个问题，本文显式地通过多语义动态抑制模块擦除参考图像中与文本不相关的细节，然后利用文本语义互补选择模块来将文本中所需要的语义填充到参考图像中，最后，为了促进擦除和填充，本文还提出了语义空间对齐约束。实验表明，本方法与现有的方法相比搜索精度更好。（3）提出了一种增强跨模态区域定位和语义修改的组合图像搜索方法。现有的方法通过一个粗糙的方式实现异构融合，忽略了建立两种模态在空间和语义上准确的对应关系，导致了部分有效融合信息的缺失。为了解决这个问题，本文通过多层级协同定位模块能够整合多个特征图上的文本位置信息，将文本精确定位到图像空间区域。同时，本文利用差分语义判别模块来评估每个图像语义维度修改的可能性，然后利用图像差分增强约束来学习文本对图像嵌入的语义修改。实验表明。与现有方法相比，本方法能够取得更好的搜索精度。

关键词

图像搜索/多模态融合/跨模态匹配

引用本文复制引用

授予学位

硕士

学科专业

信号与信息处理

导师

韦世奎

学位年度

2022

学位授予单位

北京交通大学

语种

中文

中图分类号

段落导航