首页|基于自然语言描述的单目标跟踪

基于自然语言描述的单目标跟踪

周黎

基于自然语言描述的单目标跟踪

周黎1
扫码查看

作者信息

  • 1. 哈尔滨工业大学
  • 折叠

摘要

目标跟踪是计算机视觉领域的一个重要研究方向,其任务是将给定的初始帧目标状态作为监督信息,对目标进行建模,并预测出后续每个视频帧中的目标状态。根据目标初始状态表示方式不同,可以分为基于自然语言描述的自然语言目标跟踪和基于目标包围框的视觉目标跟踪。基于自然语言的目标跟踪可以被划分为两个子任务,分别是通过语言在第一帧上定位目标(视觉定位),在随后的帧中追踪已定位的目标(目标跟踪)。近些年来,基于自然语言的目标跟踪领域涌现出许多工作并取得了良好的性能。然而,这类算法往往使用两个独立的模型来执行视觉定位和目标跟踪两个子任务,这一做法忽略了两个子任务的联系,同时模型不能被端到端训练。此外这类算法对语言信息的利用不够充分,并没有深入挖掘出语言对跟踪的作用。因此,本文展开了对基于自然语言的目标跟踪任务的研究: 本文首先提出了一种联合视觉定位和目标跟踪的跟踪框架,实现了单框架执行视觉定位和目标跟踪的目标。该框架通过统一多源参考和测试图像之间的关系建模,连接了两个任务,其中包括跨模态(视觉和语言)关系和跨时态(历史目标区域和当前搜索帧)关系。此外,为了进一步利用语言信息,还提出一个基于全局语义指导的时序线索建模模块,指导网络学习目标的历史外观表征以增强模型对目标外观变化的鲁棒性。在多个数据集上的实验结果表明,该框架在使用自然语言初始化的情况下实现了优于其他常规跟踪方法的跟踪性能。此外在RefCOCO数据集上的验证结果表明,本框架在视觉定位任务上实现了与其他常规视觉定位算法相近性能。 其次,针对长时目标跟踪中目标外观显著变化以及目标消失和重出现的挑战,本文提出了一种基于动态模版和全局重检测的自然语言跟踪算法。该算法通过计算测试图像和文本的特征相似度来度量模版可靠性,以此提供模版更新,引入动态模版有效缓解了因目标外观变化而导致的跟踪漂移。同时通过全局重检测模块来判断模型是否丢失目标,该模块有效解决了目标消失视野及重出现问题,帮助模型及时重跟踪到目标。在多个自然语言跟踪数据集上的实验结果表明,该算法在使用自然语言初始化的情况下实现了最佳的跟踪性能。

关键词

单目标跟踪/计算机视觉/自然语言描述

引用本文复制引用

授予学位

硕士

学科专业

电子信息

导师

何震宇

学位年度

2023

学位授予单位

哈尔滨工业大学

语种

中文

中图分类号

TP
段落导航相关论文