基于高清视频合成的多目标跟踪方法研究

曹先飞¹

扫码查看

作者信息

1. 电子科技大学
折叠

摘要

多目标跟踪（Multiple Object Tracking,MOT）是计算机视觉领域的研究热点，广泛应用于监控系统、自动驾驶、体育赛事分析以及虚拟现实等场景。通常MOT多用于对行人进行跟踪。而随着跟踪场景更加复杂，对密集拥挤的人群实现准确跟踪仍旧是一个考验。此外，单个相机跟踪范围小，利用多个相机扩大跟踪面积从而获取目标更全面的轨迹信息具有现实意义。为此，本文首先对多目标跟踪方法进行研究，致力于缓解密集场景下行人因频繁遮挡而导致跟踪失败的问题。然后为了进一步扩宽跟踪场景，基于实验室阵列相机设备，研究了多个有重叠区域的相机联合跟踪问题。对视频合成过程中的特点分析，提出了更加高效的目标交接策略。本文主要完成了以下工作：（1）基于经典的JDE方法实现人头跟踪器。基于人头检测的多目标跟踪器，在一定程度上缓解了拥挤场景下行人之间出现遮挡导致的错误跟踪问题。针对小目标检测困难的问题，使用特征金塔网络更低层的高分辨的特征图进行预测，实验证明该网络模型很好的提升了人头目标跟踪性能；（2）为了解决人头目标特征不明显，易与复杂昏暗的背景混淆的问题。在网络中引入了用于语义分割领域的空洞空间池化金字塔网络，并通过实验找到了一组最适合人头跟踪的空洞卷积组合。该组合模块可以在不改变输出特征层尺寸从而可以保留更多细节信息的前提下，增大整个深度网络的感受野，从而可以更好的利用全局信息区分前景和背景；（3）在数据关联的过程中，因为人头目标特征不显著，目标之间特征极其相似，从而导致对同一目标进行匹配出现困难。为此，提出了弱化行人ReID特征、更加依赖运动模型的关联算法，该算法在很大程度上降低了身份标签切换的数目；（4）为进一步扩大跟踪面积，基于阵列相机实现多个高清视频（4056×3040）联合跟踪。首先基于设备本身特点，利用SIFT算法将多个有重叠区域的视频进行合成，对合成之后的宽场景视频进行多人头跟踪。分析上述方式存在的问题，在单个相机实现多目标跟踪基础上，对视频合成过程进行分析，利用视频合成中获取的相机之间位置关系高效的解决多相机之间的目标交接问题。

关键词

多目标跟踪/高清视频/图像合成/数据关联

引用本文复制引用

授予学位

硕士

学科专业

电子与通信工程

导师

李晓峰

学位年度

2022

学位授予单位

电子科技大学

语种

中文

中图分类号

段落导航