首页|视觉语言多模态预训练综述

视觉语言多模态预训练综述

扫码查看
在多模态机器学习领域,为特定任务而制作的人工标注数据昂贵,且不同任务难以进行迁移,从而需要大量重新训练,导致训练多个任务时效率低下、资源浪费.预训练模型通过以自监督为代表的方式进行大规模数据训练,对数据集中不同模态的信息进行提取和融合,以学习其中蕴涵的通用知识表征,从而服务于广泛的相关下游视觉语言多模态任务,这一方法逐渐成为人工智能各领域的主流方法.依靠互联网所获取的大规模图文对与视频数据,以及以自监督学习为代表的预训练方法的进步,视觉语言多模态预训练模型在很大程度上打破了不同视觉语言任务之间的壁垒,提升了多个任务训练的效率并促进了具体任务的性能表现.本文总结视觉语言多模态预训练领域的进展,首先对常见的预训练数据集和预训练方法进行汇总,然后对目前最新方法以及经典方法进行系统概述,按输入来源分为图像—文本预训练模型和视频—文本多模态模型两大类,阐述了各方法之间的共性和差异,并将各模型在具体下游任务上的实验情况进行汇总.最后,总结了视觉语言预训练面临的挑战和未来发展趋势.
Comprehensive review of visual-language-oriented multimodal pre-training methods

张浩宇、王天保、李孟择、赵洲、浦世亮、吴飞

展开 >

浙江大学计算机与科学技术学院,杭州 310013

杭州海康威视数字技术股份有限公司,杭州 310051

多模态机器学习 视觉语言多模态 预训练 自监督学习 图像文本预训练 视频文本预训练

国家重点研发计划浙江省科技计划

2020YFC08325002022C01044

2022

中国图象图形学报
中国科学院遥感应用研究所,中国图象图形学学会 ,北京应用物理与计算数学研究所

中国图象图形学报

CSTPCDCSCD北大核心
影响因子:1.111
ISSN:1006-8961
年,卷(期):2022.27(9)
  • 7
  • 3