摘要
行人检测是目标检测领域的研究热点,尤其是贴近现实环境的密集行人检测,近些年来随着深度学习以及计算机硬件的发展,更是得到广泛地关注。然而对于密集人群往往意味着更加复杂的检测要求,包括如何更加有效地特征提取,小尺度行人检测等。为此,本文通过基于深度学习的目标检测方法,对上述问题进行研究,并通过实验证明本文提出的方法能够更好地解决上述提到的问题。本文的研究内容如下: 第一,本文以RetinaNet目标检测方法为基础,对单阶段目标检测算法中出现的正负样本不均衡问题进行研究与分析。同时,通过改进RetinaNet本身存在的训练与推理阶段的样本使用不一致问题以及面对密集行人检测问题时RetinaNet骨干网络特征提取能力不足的问题,提出GGC-RetinaNet(GeneralizedGroupConvolution-RetinaNet,GGC-RetinaNet)。主要改进点包括以下两点:(1)通过使用分组卷积方法,从通道宽度展开网络,提升RetinaNet骨干网络的特征提取能力,提升RetinaNet的检测性能;(2)对RetinaNet在训练与测试阶段的样本使用不一致问题进行研究,并使用GeneralizedFocalLoss解决该问题,从而消除网络在推理与训练阶段的性能鸿沟。通过实验表明,改进后的GGC-RetinaNet相较于RetinaNet在密集人群场景下能够得到更好的检测分类精度和检测框位置。 第二,在GGC-RetinaNet的基础上,本文对注意力机制方法进行研究与分析,结合通道注意力方法,并针对密集人群中的小尺度问题对多尺度融合层进行改进,提出FGGC-RetinaNet(FocusGeneralizedGroupConvolution-RetinaNet,FGGC-RetinaNet),其主要改进点包括以下两点:(1)尽管GGC-RetinaNet的骨干特征提取网络通过从通道维度展开提升了特征提取能力,但忽略了通道与通道之间的特征相关性,以及不同通道信息的不同重要性,针对该问题,通过使用通道注意力对分组卷积方法进行改进,提出FocusResNeXt骨干网络,使得网络在正向传播过程中给予重要信息更多的权重,提升GGC-RetinaNet的检测性能;(2)对于密集人群下的小尺度行人检测问题,在原自上而下的特征金字塔网络结构中额外添加自下而上的特征融合路径,提升网络对于低卷积阶段特征的复用性,从而进一步提升网络在密集人群环境下小尺度行人的检测效果。最后通过实验证明FGGC-RetianNet相较于GGC-RetinaNet能够得到更好的小尺度行人查全率与准确率。