基于深度学习的视频文本检索算法研究

朱晋宽¹

扫码查看

作者信息

1. 电子科技大学
折叠

摘要

近年来，随着深度学习技术的进步和互联网短视频平台的发展，以深度学习技术为基础，多模态数据（例如视频、文本、图片等）为中心的研究层出不穷。例如根据视频生成相关描述文字的视觉描述生成、定位文本所描述的相关视觉区域的视觉定位、以及利用文本检索相关视频或图片的跨模态检索等。本文聚焦于基于深度学习的视频-文本检索领域，对其进行系统性的研究。具体来说，视频-文本检索任务旨在从视频库中检索出与查询文本内容相关的视频。视频含有大量低层语义的视觉信息，而文本由人类凝练总结出的高层语义符号组成，因此视频和文本之间存在巨大的语义鸿沟。如何克服这两种模态信息之间的语义鸿沟是视频-文本检索的一大挑战。在调研了国内外近年来的相关课题后，本文按照训练数据规模将近年来对视频-文本检索任务的解决方案分为大规模预训练模型以及小规模模型。其中大规模预训练模型依赖于大量的图文数据作为训练资料，将先验知识保存在大模型参数中，以此指导下游视频-文本检索任务。小规模模型则将研究重心放在方法设计，减小视频和文本之间的模态差异。由于大规模预训练模型耗费大量的数据和训练资源，因此本文聚焦于小规模视频-文本检索方法的研究。从方法设计和模型设计两个方面对现有方法提出改进方案。本文的创新点可以归纳为以下三点： 1）针对视频-文本之间存在的语义鸿沟，本文提出了基于互补空间学习的视频-文本检索新方案，本文采用分而治之的思想，将视频和文本的匹配过程转化为在两个不同语义层级的空间——符号空间和隐空间进行相似度计算。以此充分挖掘视频和文本的互补特性。 2）本文提出了基于生成网络的符号空间学习方法和基于视觉记忆的隐空间学习方法，分别将视觉特征转移到符号空间，将文本特征映射到隐空间。前者利用低层语义的视频生成符号特征；后者在抽象的文本中引入视觉语义信息。 3）针对本文提出互补空间算法所带来特征存储空间增大的问题，设计基于互补空间的深度量化模块对特征进行量化压缩，并保持较好检索性能。最后，本文将所提出的方法在多个视频-文本检索数据集（MSR-VTT、VATEX、TGIF和MSVD）上进行实验，证明了所提出方法的先进性和有效性，为所研究方向提供了一定的思路。

关键词

视频文本检索/深度量化/多空间学习/视觉信息/语义符号

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

赵志为

学位年度

2023

学位授予单位

电子科技大学

语种

中文

中图分类号

段落导航