摘要
目标检测在很多领域中都有着广泛的应用,例如自动驾驶、安防监控、医疗图像分析等。在目标检测中,不同物体在图像中呈现不同的大小,因此需要利用不同尺度的特征来检测不同大小的物体,目前特征金字塔网络可以有效地解决这个问题。但特征金字塔网络的单层独立检测导致低层特征只关注到局部细节高层特征更注重整体结构,网络难以感知全局上下文信息,并且采用简单的卷积方式进行降维,无法有效保留和整合通道信息。此外,特征金字塔不同层级存在尺度、语义、分辨率等差异导致边界框质量不平衡,并且特征金字塔网络各层分别检测目标,整体计算回归损失,不能对各层回归损失函数协同优化。针对以上问题,本文的主要工作如下: (1)针对特征金字塔网络难以感知全局范围上下文信息和通道信息丢失的问题,提出了一种基于多层注意力机制的特征金字塔网络。采用了自注意力机制和通道注意力机制,分别设计了Transformer特征金字塔模块和通道注意力模块。通过对特征金字塔网络不同层级特征的关联性建模,使模型学习到全局上下文信息,并利用可学习的网络参数从原始特征和所构建特征中推断不同通道特征的重要性程度,从而实现对重要的通道特征进行增强。提高了特征的表征能力和利用效率,改善了目标检测的准确性和效率,为目标检测技术的进一步发展提供了基础。 (2)针对特征金字塔网络中边界框质量不平衡和缺乏各层回归损失函数协同优化问题,提出了一种分层回归损失函数。采用了重加权方法,根据特征金字塔每一层的回归情况,自适应给予损失函数不同的权重,使模型集中在高质量边界框训练。该损失函数保留了原有GIoU损失优点的同时,能自适应的增强不同边界框对回归损失函数的差异性,动态调整损失函数对模型的贡献。提高了模型的收敛速度和准确性。 (3)将上述两项研究成果应用到疲劳检测场景中,实现了一种基于特征金字塔网络的疲劳驾驶检测系统。该系统基于FCOS神经网络和PyTorch深度学习框架,通过自制数据集完成训练,解决了传统检测算法在头部姿态和面部遮挡方面鲁棒性不足的问题,能够高效准确地识别图片、视频、摄像头数据中人体的疲劳状态。