摘要
运动目标的跟踪是当前计算机视觉领域的一个重要研究方向,在智慧交通、智能视频监控、医疗辅助诊断等领域都发挥着积极的作用。目标跟踪的任务要求跟踪算法需要对运动目标的位置和尺寸大小进行连续且精确的预测。但是在实际应用中受到目标运动场景复杂多变以及运动目标形态变化难以预测等多种因素的影响,想要设计一个同时具有很好准确性和鲁棒性的实时跟踪器仍然存在很大挑战。本文基于当前主流的采用孪生网络的目标跟踪算法,从增强骨干网络特征和提高目标框回归精度两个方向进行研究。主要的研究内容以及创新点如下: 1.针对当下采用深度卷积网络来提取特征的孪生网络无法平衡语义信息和细节信获取的问题,提出了一种新的多层特征融合策略。策略采用基于特殊卷积核的多层特征融合模块来融合ResNet-22网络最后三层的特征图。采用不同膨胀系数的卷积核替换原有卷积核,强化特征图在横向和纵向上的感知能力,且不需要增加额外的推理计算。为了进一步提升目标框回归精度,本文对当前跟踪领域的回归损失函数进行了研究。针对距离损失函数只考虑预测框和目标框中心点距离导致两个框中心点重合时损失函数性能下降的问题,进一步考虑了预测框和目标框面积以及四个角点距离,提出了角点距离损失函数,增强了目标框回归精度。从实验结果中可以看出,提出的算法在OTB2013和OTB2015上在所有对比算法中取得了最好的效果,成功率指标比SiamRPN高了0.27和0.19。在VOT2016数据集上,所提出的算法预期平均重叠率比SiamRPN高出0.09。 2.针对目前多数基于孪生网络的目标跟踪算法使用的互相关操作是一个局部线性匹配过程,没有关注全局信息,容易陷入局部最优的问题,提出了Transformer模块,利用Transformer在全局信息建模方面的优势改善互相关操作丢失语义信息带来的影响。此外为了提升目标框的回归精度,通过设计辅助回归分支将像素级的监控引入到训练中获取更加详细的目标形状信息,以此提升目标框的回归精度。实验数据表明,所提出的算法在OTB2015上成功率指标比SiamDW高出0.18,在VOT2018上预期平均重叠率比SiamRPN++高出0.13。