摘要
行人多目标检测跟踪作为计算机视觉领域中的关键技术之一,在自动驾驶、智能监控、行为识别等领域应用广泛。依托于深度学习技术的迭代,基于深度学习的行人多目标检测跟踪算法相较于传统方式精度更高,展现出更多的发展前景。 然该任务在实际应用中仍存在众多挑战,如行人所处复杂背景环境、行人密集拥挤、行人被遮挡以及行人姿态变化等情况所造成的误检、漏检、目标丢失等问题,以及端侧部署时因模型复杂造成实时检测卡顿的情况。本文以上述问题为切入点,以ResNet和FairMOT作为基础模型并提出改进方式。主要研究内容和贡献如下: (1)针对低照度场景下误检、漏检、目标丢失等问题,从全局注意力和低照度两个方面进行研究。首先,研究CNN接受域内从空间和通道两个角度构建全局的信息特征,通过提高CNN全局的信息编码质量来加强CNN的表征能力。重点关注全局关系,并提出了一个新的架构单元,称之为GA(GlobalAttention)模块,通过显式地建模空间和通道之间的相互依赖,自适应给出主要特征用于区分图中前景和背景。其次,在推理阶段对低照度场景下的数据,引入限制对比度自适应直方图均衡化,用于减少低照度场景下的图像噪声,增强图像细节信息,并与GA模块相适配,提高模型在低照度场景下的跟踪性能。 (2)深化研究模型误检、漏检、目标丢失等问题,将CNN和Transformer两者优势进行高效的融合。首先,利用Transformer中的多头自注意力机制减少对外部信息的依赖,计算像素或特征间的互相影响,来解决全局信息依赖问题。其次,针对Transformer计算复杂度过高,引入深度可分离反卷积,提升计算效率,并提出了一个新的架构单元,称之为GCT(GlobalCNNTransformer)模块。然后,提升FPN(FeaturePyramidNetwork)不同特征层级间密集信息交换,使得检测器在网络的前期阶段以相同的优先级处理高级语义信息和低级空间信息,引入跨层连接操作,并将其命名为CL-FPN(CrossLayer-FPN)。 (3)针对模型端侧部署实时检测卡顿的情况,对模型压缩展开研究,采用剪枝、量化、参数重构三种模型压缩方式,对行人多目标跟踪模型进行优化。本研究围绕模型权重处理进行开展,首先,依据权重标准减少模型参数对模型进行剪枝操作。其次,将32位浮点数的模型权重映射为8位整型,同时采用K-Means++聚类算法,将密集的权重进行离散化实现模型量化。然后,对模型参数重构操作,将卷积、池化的操作组合,通过算子融合,在不降低或略降模型精度的前提下,减少模型计算和参数量,提高运算效率。 将上述策略应用于ResNet和FairMOT模型,并与原始模型对比。本文采用CIFAR-10数据集验证策略在ResNet模型上游分类任务中的有效性,采用MOT17数据集验证策略在FairMOT模型下游行人多目标检测任务中的有效性。实验表明,上述策略有效提升FairMOT模型在复杂场景下的行人多目标检测跟踪精度,有效减少模型误检、漏检及目标丢失的问题,具体表现在IDF1指标的提升。最后,通过模型压缩方式,实现多目标跟踪模型实时检测跟踪性能的提升。