多目标的行人检测与跟踪算法研究

李佐龙¹

扫码查看

作者信息

1. 广东工业大学
折叠

摘要

随着深度学习的发展，图像识别与检测的效果不断提升，行人检测与跟踪领域得到了极大的发展。现有的多目标行人检测与跟踪技术主要依赖于先检测后跟踪（tracking-by-detection）模式，这种模式下的前提是行人检测器能完美地检测视频帧的每一个目标。但是在实际场景中，由于行人多处于运动状态，目标容易发生多尺度变化、遮挡等问题。检测器面对不同尺度的目标时，效果并不理想，容易造成漏检和误检，特别是检测小目标性能差。目标之间发生遮挡时，会对跟踪产生干扰，产生错误和行人ID切换等。如何构建一个鲁棒的实时多目标检测与跟踪系统是当前亟需解决的问题。针对多目标行人检测与跟踪任务的复杂性，本文将其拆分为检测与跟踪两个子任务。检测任务中通过搭建一个实时高效的行人检测器来检测视频帧中的行人目标，而跟踪任务则使用检测器检测到的行人目标做前后帧相同目标间的数据关联。在前人研究基础上本文提出MSAnet（Multi-ScaleAttentionNetwork）多目标检测网络，通过设计卷积特征重建和通道注意力两种模块来增强对多尺度行人的检测效果。本文以原始输入的多尺度特征为基础融合重建多个特征金字塔，然后融合多个特征金字塔中的相同尺度特征并学习每层特征的通道注意力权值来增加有效通道层权重，由此得到的特征才用于最后的目标检测。在MSAnet模型中集成这两种模块，并改进模型损失函数用以优化对遮挡行人的检测效果。在Caltech-USA、INRIA和ETH三个数据集上的测试结果表明，新方法的准确率高于RFBnet和MS-CNN等一些多尺度方法，在不同尺度行人的测试子集上达到了最优的检测效果。行人检测任务中普遍存在行人的多尺度变化、遮挡和小目标检测不佳等问题，MSAnet模型在保证检测网络实时性的同时在多尺度变化、遮挡和小目标等问题上有了极大的改进。本文实现多个外观提取能力依次增强的行人重识别网络，然后结合到DeepSort算法中验证外观特征对跟踪效果的影响。通过对比试验发现本文实现的多目标跟踪器在多目标跟踪精度（Multipleobjecttrackingprecision,MOTP）和假正数量（falsepositive,FP）等指标上改进明显，最好的FP指标仅为原DeepSort算法的16.7%，同时通过实验证明提升行人检测器的准确性能极大的提升跟踪效果。最后使用MSAnet行人检测网络结合改进的DeepSort算法建立统一的实时多目标行人检测与跟踪框架。在多个GPU平台上验证多目标行人检测与跟踪框架的实时跟踪性能，最高跟踪帧率达到91.21fps，满足绝大多数场景的实时检测与跟踪任务。

关键词

行人检测/卷积神经网络/多尺度特征/行人重识别/多目标跟踪/深度学习

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

王帮海

学位年度

2021

学位授予单位

广东工业大学

语种

中文

中图分类号

段落导航