首页|基于时空层级查询的指代视频目标分割

基于时空层级查询的指代视频目标分割

扫码查看
本文针对当前指代视频目标分割方法缺乏目标时空一致性建模和目标时空表征学习不足等问题,进行了深入的研究,提出了基于时空层级查询的指代视频目标分割方法(STHQ)。本文将指代视频目标分割看作基于查询的序列预测问题,并提出两级查询机制进行目标的时空一致性建模和时空特征学习。在第1阶段,本文提出了帧级空间信息提取模块,该模块使用语言特征作为查询独立地和视频序列中的每一帧在空间维度进行信息交互,生成包含目标空间信息的实例嵌入;在第2阶段,本文提出时空信息聚合模块,该模块使用视频级的可学习查询嵌入和第1阶段生成的实例嵌入在时空维度进行信息交互,生成具有时空表征信息的视频级实例嵌入;最后,视频级实例嵌入线性变换为条件卷积参数,并和视频序列中的每一帧进行卷积操作,生成目标的掩码预测序列。在该领域的3个基准数据集上的实验结果表明,本文提出的STHQ方法超越了现有的方法,实现了最佳的性能。
Spatio-temporal hierarchical query for referring video object segmentation
In this paper,we propose a spatio-temporal hierarchical query-based referring video object segmentation(RVOS)method,called STHQ,to address the problems of lack of spatio-temporal consistency modeling and insufficient learning of spatio-temporal representation of the target in existing RVOS methods.We view the RVOS task as a query-based sequence prediction problem,and propose a two-level query mechanism for spatio-temporal consistency modeling and feature learning of the target.In the first stage,we devise the frame-level spatial information extraction module,which adopts language features as the query to interact independently with each frame of the video sequence in the spatial dimension,and generate instance embeddings containing spatial information about the target.In the second stage,we propose a spatio-temporal information aggregation module.The module uses the video-level learnable queries to interact with the instance embeddings generated in the first stage in the spatio-temporal dimension,and produces the video-level instance embeddings with spatio-temporal representation information.Finally,the video-level instance embeddings are linearly converted into the parameters of conditional convolution,which is used to perform convolution with the features of each frame in the video sequence and generate the mask prediction sequence of the target.The experimental results on three benchmarks show that our proposed STHQ outperforms the existing approaches and achieves state-of-the-art performance.

referring video object segmentationspatio-temporal consistency modelingspatio-temporal feature learningcross-modal feature interactionTransformer

兰猛、张乐飞、杜博、张良培

展开 >

武汉大学计算机学院国家多媒体软件工程技术研究中心,人工智能研究院,多媒体网络通信工程湖北省重点实验室,武汉 430072

武汉大学测绘遥感信息工程国家重点实验室,武汉 430072

指代视频目标分割 时空一致性建模 时空特征学习 跨模态特征交互 Transformer

国家自然科学基金优秀青年科学基金国家杰出青年科学基金

6212206062225113

2024

中国科学F辑
中国科学院,国家自然科学基金委员会

中国科学F辑

CSTPCD北大核心
影响因子:1.438
ISSN:1674-5973
年,卷(期):2024.54(3)
  • 48