计算机研究与发展2023,Vol.60Issue(9) :2169-2179.DOI:10.7544/issn1000-1239.202220440

基于CLIP生成多事件表示的视频文本检索方法

CLIP Based Multi-Event Representation Generation for Video-Text Retrieval

涂荣成 毛先领 孔伟杰 蔡成飞 赵文哲 王红法 黄河燕
计算机研究与发展2023,Vol.60Issue(9) :2169-2179.DOI:10.7544/issn1000-1239.202220440

基于CLIP生成多事件表示的视频文本检索方法

CLIP Based Multi-Event Representation Generation for Video-Text Retrieval

涂荣成 1毛先领 1孔伟杰 2蔡成飞 3赵文哲 4王红法 5黄河燕1
扫码查看

作者信息

  • 1. 北京理工大学计算机学院 北京 100081
  • 2. 北京大学信息工程学院 广东深圳 518055
  • 3. 浙江大学电子信息学院 杭州 310058
  • 4. 华南理工大学软件学院 广州 510006
  • 5. 中国科学院自动化所 北京 100190
  • 折叠

摘要

视频-文本检索作为一项被广泛应用于现实生活中的多模态检索技术受到越来越多的研究者的关注.近来,大部分视频文本工作通过利用大规模预训练模型中所学到的视觉与语言之间的匹配关系来提升文本视频间跨模态检索效果.然而,这些方法忽略了视频、文本数据都是由一个个事件组合而成.倘若能捕捉视频事件与文本事件之间的细粒度相似性关系,将能帮助模型计算出更准确的文本与视频之间的语义相似性关系,进而提升文本视频间跨模态检索效果.因此,提出了一种基于CLIP生成多事件表示的视频文本检索方法(CLIP based multi-event representation generation for video-text retrieval,CLIPMERG).首先,通过利用大规模图文预训练模型CLIP的视频编码器(ViT)以及文本编码器(Tansformer)分别将视频、文本数据转换成视频帧token序列以及文本的单词token序列;然后,通过视频事件生成器(文本事件生成器)将视频帧token序列(单词token序列)转换成k个视频事件表示(k个文本事件表示);最后,通过挖掘视频事件表示与文本事件表示之间的细粒度关系以定义视频、文本间的语义相似性关系.在 3个常用的公开视频文本检索数据集MSR-VTT,DiDeMo,LSMDC上的实验结果表明所提的CLIPMERG优于现有的视频文本检索方法.

关键词

预训练模型/视频文本检索/事件表示/CLIP模型/Transformer模型

Key words

pre-training model/video-text retrieval/event representation/CLIP model/Transformer model

引用本文复制引用

基金项目

国家重点研发计划项目(2018YFB1005100)

国家自然科学基金(U21B2009)

国家自然科学基金(62172039)

国家自然科学基金(61732005)

国家自然科学基金(61602197)

国家自然科学基金(L1924068)

北京语言资源先进创新中心基金(TYZ19005)

出版年

2023
计算机研究与发展
中国科学院计算技术研究所 中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心
影响因子:2.649
ISSN:1000-1239
参考文献量5
段落导航相关论文