一种融合注意力机制的跨模态图文检索算法

A Cross-modal Image and Text Retrieval Algorithm for Integrating Attention Mechanism

杨迪 ¹吴春明¹

扫码查看

作者信息

1. 西南大学计算机与信息科学学院,重庆 400700
折叠

摘要

随着不同模态的数据爆发式增长,跨模态检索成为信息检索领域的重要研究课题.由于语义相同事物在不同模态下底层特征异构,如何科学度量它们之间的相似性成为跨模态检索研究首先要解决的重要问题.当前主流的图文检索方法通过模型将异构特征映射到公共空间再进行相似性度量,这些工作主要可分为两种思路,一是从全局特征角度来实现全局信息对齐,二是从局部特征入手来实现细粒度信息对齐,但前者容易丢失局部细节信息,而后者容易导致语义信息不完善.为此,该文提出一种融合注意力机制的跨模态图文检索算法.首先,利用Vision Transformer和Bert模型获得包含上下文信息的图像和文本特征,再利用注意力机制获得模态内局部的图像和文本特征;其次,通过注意力机制得到模态间全局的图像和文本特征;最后,将这些优化的特征与基础特征融合来进行跨模态检索.该算法既充分利用了不同模态的细粒度特征,又更好地兼顾了全局信息,因而能取得更好的检索精度,通过在Wikipedia数据集上的大量对比实验,证明了该算法的有效性.

关键词

图文检索/跨模态/注意力机制/全局特征/局部特征

Key words

image-text retrieval/cross-modal/attention mechanism/global feature/local feature

引用本文复制引用

基金项目

重庆市自然科学基金(cstc2019jcyjmsxmX0130)

出版年

2023

计算机技术与发展

陕西省计算机学会

计算机技术与发展

CSTPCD

影响因子：0.621

ISSN：1673-629X

参考文献量1

段落导航