视觉语言多模态预训练综述

扫码查看

原文链接

NETL
NSTL
万方数据
维普

中文摘要：在多模态机器学习领域,为特定任务而制作的人工标注数据昂贵,且不同任务难以进行迁移,从而需要大量重新训练,导致训练多个任务时效率低下、资源浪费.预训练模型通过以自监督为代表的方式进行大规模数据训练,对数据集中不同模态的信息进行提取和融合,以学习其中蕴涵的通用知识表征,从而服务于广泛的相关下游视觉语言多模态任务,这一方法逐渐成为人工智能各领域的主流方法.依靠互联网所获取的大规模图文对与视频数据,以及以自监督学习为代表的预训练方法的进步,视觉语言多模态预训练模型在很大程度上打破了不同视觉语言任务之间的壁垒,提升了多个任务训练的效率并促进了具体任务的性能表现.本文总结视觉语言多模态预训练领域的进展,首先对常见的预训练数据集和预训练方法进行汇总,然后对目前最新方法以及经典方法进行系统概述,按输入来源分为图像—文本预训练模型和视频—文本多模态模型两大类,阐述了各方法之间的共性和差异,并将各模型在具体下游任务上的实验情况进行汇总.最后,总结了视觉语言预训练面临的挑战和未来发展趋势.

外文标题：Comprehensive review of visual-language-oriented multimodal pre-training methods

作者：

张浩宇、王天保、李孟择、赵洲、浦世亮、吴飞

展开 >

作者单位：

浙江大学计算机与科学技术学院,杭州 310013

杭州海康威视数字技术股份有限公司,杭州 310051

关键词：

多模态机器学习视觉语言多模态预训练自监督学习图像文本预训练视频文本预训练

基金：

国家重点研发计划浙江省科技计划

项目编号：

2020YFC08325002022C01044

出版年：

2022

中国图象图形学报

中国科学院遥感应用研究所,中国图象图形学学会 ,北京应用物理与计算数学研究所

中国图象图形学报

CSTPCDCSCD北大核心

影响因子：1.111

ISSN：1006-8961

年,卷(期)：2022.27(9)

被引量7
参考文献量3