摘要
根据是否在线更新模板,现存的深度单目标跟踪算法大致可以分为两类:一类算法固定模型不更新,另一类算法不断更新模型。前一种方法完全依赖于大量的训练数据得到抗干扰能力强的网络。这些网络不需要在线更新,因此通常都能够满足实际应用中的实时需要,但也因为无法捕获跟踪过程中目标的外观变化而缺乏重要的模型适应能力,很容易发生跟踪漂移。后一种方法通过频繁的在线更新来增强模型对于目标的判别能力。它们会利用第一帧的目标信息来初始化模型并在随后的视频中每隔几帧更新模型。及时的在线更新赋予跟踪器捕获目标外观变化的能力但同时也引入了较多的计算量,从而导致跟踪速度的下降。这些算法中的大多数难以满足实时性的要求。 为了充分利用两种算法的优点,同时规避它们存在的问题。本文提出动态匹配分类切换框架,该框架可以融合匹配和分类网络,并利用判别网络实现它们之间的合理切换。在背景简单且目标没有太大变化的情况的下,使用匹配网络对物体进行跟踪;当遇到干扰较多的情况时,切换至分类网络。两类网络的动态切换使得有限的计算资源集中到需要的场景中去。同时,为了加速分类网络模型的在线更新,一个新颖的元分类器被引入到分类网络中。该分类器利用基于优化的元学习技术加速模型的更新,使得分类器可以通过一步迭代实现模型参数的快速更新。在通用测试数据库上的大量实验证明了动态匹配分类框架在视觉跟踪中的有效性。 尽管动态匹配分类框架具备良好的性能,但是模型参数太大,影响了它在实际生活中的应用。为了减少模型参数,本文进一步研究提出了梯度引导网络,该网络可以通过前向后向的传播提取梯度中的判别信息来更新孪生网络的目标模板。除此之外,本文还提出了模板泛化的训练方法,该方法可以强迫更新模块关注梯度信息同时防止模型在训练数据上过拟合。在通用测试数据库上的对比实验验证了本文提出的算法相比于其他优秀的视觉目标跟踪算法表现得更加优异。