计算机研究与发展2024,Vol.61Issue(2) :460-469.DOI:10.7544/issn1000-1239.202220698

混合目标与搜索区域令牌的视觉目标跟踪

Mixing Tokens from Target and Search Regions for Visual Object Tracking

薛万利 张智彬 裴生雷 张开华 陈胜勇
计算机研究与发展2024,Vol.61Issue(2) :460-469.DOI:10.7544/issn1000-1239.202220698

混合目标与搜索区域令牌的视觉目标跟踪

Mixing Tokens from Target and Search Regions for Visual Object Tracking

薛万利 1张智彬 1裴生雷 2张开华 3陈胜勇1
扫码查看

作者信息

  • 1. 天津理工大学计算机科学与工程学院 天津 300384
  • 2. 青海民族大学物理与电子信息工程学院 西宁 810007
  • 3. 南京信息工程大学计算机学院 南京 130012
  • 折叠

摘要

当前基于Transformer的主流跟踪框架在特征提取及融合方面存在 3个问题:1)分开进行特征提取与融合,易产生次优模型训练结果;2)使用计算复杂度为O(N2)的自注意力机制会降低跟踪算法效率;3)简单的目标模板选取策略难以自适应跟踪过程中目标表观的剧烈变化.为此,利用快速傅里叶变换对目标与搜索区域的令牌进行有效混合,提出一种新颖的基于Transformer的视觉目标跟踪方案.针对问题1提出一种高效端到端方式将特征提取与融合进行统一学习以获得最优模型.针对问题 2采用快速傅里叶变换实现目标与搜索区域令牌之间的完全信息交互,该操作计算复杂度为O(Nlog(N)),有助于提升跟踪效率.针对问题 3提出一种基于跟踪质量评估的目标模板记忆存储机制以快速自适应目标表观的剧烈变化.在 3个标准数据集LaSOT,OTB100,UAV123上,所提方法与当前最优方法相比在效率和精度上均取得更好表现.

Abstract

There are three problems about feature extraction and fusion in the current mainstream tracking framework based on Transformer:1.The two modules of feature extraction and fusion are used separately,which is easy to produce sub-optimal model training results.2.Computational complexity of O(N2)using self-attention reduces tracking efficiency.3.The target template selection strategy is simple and is difficult to adapt to the drastic changes in the target appearance during the tracking process.We propose a novel Transformer tracking framework using fast Fourier transform mixing target tokens and search region tokens.For problem 1,an efficient end-to-end approach is proposed to extract and fuse features for unified learning to obtain optimal model;For problem 2,the fast Fourier transform is used to achieve complete information interaction between the target tokens and search region tokens.The computational complexity of this operation is O Nlog(N),which greatly improves the tracing efficiency.For problem 3,a template memory storage mechanism based on quality assessment is proposed,which can quickly adapt to the drastic changes in target appearance.Compared with the current state-of-the-art algorithms on three datasets LaSOT,OTB100 and UAV123,our tracker achieves better performance in both efficiency and accuracy.

关键词

Transformer/快速傅里叶变换/特征提取/特征融合/目标跟踪

Key words

Transformer/fast Fourier transform/feature extraction/feature fusion/object tracking

引用本文复制引用

基金项目

国家自然科学基金项目(62376197)

国家自然科学基金项目(61906135)

国家自然科学基金项目(61876088)

国家自然科学基金项目(92048301)

国家自然科学基金项目(62020106004)

江苏省333工程人才项目(BRA2020291)

出版年

2024
计算机研究与发展
中国科学院计算技术研究所 中国计算机学会

计算机研究与发展

CSTPCD北大核心
影响因子:2.649
ISSN:1000-1239
参考文献量2
段落导航相关论文