首页|基于深度学习的图像-文本匹配研究综述

基于深度学习的图像-文本匹配研究综述

扫码查看
图像-文本匹配任务旨在衡量图像和文本描述之间的相似性,其在桥接视觉和语言中起着至关重要的作用.近年来,图像与句子的全局对齐以及区域与单词的局部对齐研究方面取得了很大的进展.本文对当前先进的研究方法进行分类和描述.具体地,本文将现有方法划分为基于全局特征的图像-文本匹配方法、基于局部特征的图像-文本匹配方法、基于外部知识的图像-文本匹配方法、基于度量学习的图像-文本匹配方法以及多模态预训练模型,对于基于全局特征的图像-文本匹配方法,本文依据流程类型划分为两类:基于嵌入的方法和基于交互的方法;而对于基于局部特征的图像-文本匹配方法,依据其交互模式的不同,则被细分为三类:基于模态内关系建模的方法、基于模态间关系建模的方法以及基于混合交互建模的方法.随后,本文对当前图像-文本匹配任务的相关数据集进行了整理,并对现有方法的实验结果进行分析与总结.最后,对未来研究可能面临的挑战进行了展望.
A Survey on Deep Learning Based Image-Text Matching

image-text matchingcross-modal image retrievalmultimodal pre-training modelsurveydeep learningartificial intelligence

刘萌、齐孟津、詹圳宇、曲磊钢、聂秀山、聂礼强

展开 >

山东建筑大学计算机科学与技术学院 济南 250101

山东大学(青岛)计算机科学与技术学院 山东 青岛 266000

哈尔滨工业大学(深圳)计算机科学与技术学院 广东 深圳 518055

图像-文本匹配 跨模态图像检索 多模态预训练模型 综述 深度学习 人工智能

国家自然科学基金国家自然科学基金山东省杰出青年基金山东省基金重大基础研究项目山东省高等学校青年创新科技创新计划山东建筑大学特聘教授专项基金

62006142U1936203ZR2021JQ26ZR2021ZD152021KJ036

2023

计算机学报
中国计算机学会 中国科学院计算技术研究所

计算机学报

CSTPCDCSCD北大核心
影响因子:3.18
ISSN:0254-4164
年,卷(期):2023.46(11)
  • 1
  • 6