摘要
目标检测与跟踪是计算机视觉领域的重要研究方向,在智能交通、无人驾驶、机器人自主导航、灾害或损伤检测等很多应用领域内发挥着关键作用。基于深度学习技术的目标检测算法通常都是在现有公开的大型通用数据集上训练完成,而这些数据集大多是针对自然场景下的稀疏目标,小目标样本数量较少,并且小尺度目标的分辨率较低,在经多次下采样后的小目标信息会进一步减少,使得这些优秀算法对小尺度目标检测的效果不是太好。本次课题是在无人机应用场景下的目标检测以及追踪,由于在跟踪的过程中会出现目标形变、场景复杂变化、目标尺度较小等诸多问题,使得在无人机视角下的目标检测与追踪受到极大的挑战。本文对现有主流的基于深度学习的目标检测和跟踪算法进行研究分析并进一步改进,提升在无人机应用场景下的小目标检测和跟踪精度。此次论文的主要研究包含以下的三个方面: (1)本文分别从数据扩充,网络结构设计、损失函数三个方面对现有的YOLOv3算法进行优化,解决在无人机视角下的小目标检测漏检率较高的问题。 (2)基于深度学习的检测算法虽然比传统基于手工设计特征提取算子的检测算法要好很多,但是在深度学习的算法中通常会使用大量的卷积层或全连接层,使得算法拥有庞大的参数量,巨大的参数量使得网络在一次的前向推理非常耗时,导致在无人机机载端的部署检测近乎不可能,所以,根据现在常见的模型压缩方法,需要对改进后的YOLOv3网络进行剪枝操作,加快在无人机机载端的检测速度。 (3)针对在实际跟踪过程中目标出现的遮挡、快速性运动、形变以及相似背景干扰等挑战,对现有的基于深度学习的目标跟踪算法SiamRPN研究并进行改进。首先将SiamRPN算法用于提取特征的5层主网络进行替换,改用ResNet单元搭建更深的网络结构,使得提取的特征更加丰富全面,能够应付较为复杂的环境。其次,对匹配的模板信息进行增强。原算法仅依赖第一帧目标图像作为模板图像,不足以应对复杂的目标以及环境的变化。改进后的算法将视频序列的第一帧模板信息、当前帧的前一帧提取的特征信息以及历史融合的信息进行融合并作为当前帧的跟踪模板。此外,由于在跟踪过程中背景的复杂变化,使得新融合的模板信息噪声较大,所以在第一帧的模板信息与新融合的模板信息之间做一个比例加权,使得模板信息更具有鲁棒性。