基于CLIP生成多事件表示的视频文本检索方法

CLIP Based Multi-Event Representation Generation for Video-Text Retrieval

涂荣成 ¹毛先领 ¹孔伟杰 ²蔡成飞 ³赵文哲 ⁴王红法 ⁵黄河燕¹

扫码查看

作者信息

1. 北京理工大学计算机学院北京 100081
2. 北京大学信息工程学院广东深圳 518055
3. 浙江大学电子信息学院杭州 310058
4. 华南理工大学软件学院广州 510006
5. 中国科学院自动化所北京 100190
折叠

摘要

视频-文本检索作为一项被广泛应用于现实生活中的多模态检索技术受到越来越多的研究者的关注.近来,大部分视频文本工作通过利用大规模预训练模型中所学到的视觉与语言之间的匹配关系来提升文本视频间跨模态检索效果.然而,这些方法忽略了视频、文本数据都是由一个个事件组合而成.倘若能捕捉视频事件与文本事件之间的细粒度相似性关系,将能帮助模型计算出更准确的文本与视频之间的语义相似性关系,进而提升文本视频间跨模态检索效果.因此,提出了一种基于CLIP生成多事件表示的视频文本检索方法(CLIP based multi-event representation generation for video-text retrieval,CLIPMERG).首先,通过利用大规模图文预训练模型CLIP的视频编码器(ViT)以及文本编码器(Tansformer)分别将视频、文本数据转换成视频帧token序列以及文本的单词token序列;然后,通过视频事件生成器(文本事件生成器)将视频帧token序列(单词token序列)转换成k个视频事件表示(k个文本事件表示);最后,通过挖掘视频事件表示与文本事件表示之间的细粒度关系以定义视频、文本间的语义相似性关系.在 3个常用的公开视频文本检索数据集MSR-VTT,DiDeMo,LSMDC上的实验结果表明所提的CLIPMERG优于现有的视频文本检索方法.

关键词

预训练模型/视频文本检索/事件表示/CLIP模型/Transformer模型

Key words

pre-training model/video-text retrieval/event representation/CLIP model/Transformer model

引用本文复制引用

基金项目

国家重点研发计划项目(2018YFB1005100)

国家自然科学基金(U21B2009)

国家自然科学基金(62172039)

国家自然科学基金(61732005)

国家自然科学基金(61602197)

国家自然科学基金(L1924068)

北京语言资源先进创新中心基金(TYZ19005)

出版年

2023

计算机研究与发展

中国科学院计算技术研究所中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心

影响因子：2.649

ISSN：1000-1239

参考文献量5

段落导航