摘要
目标检测是计算机视觉技术的一个重要组成部分,作为下游视觉任务的基础,广泛地应用于无人驾驶、卫星遥感图像和工业检测等智能化检测场景中。当前的目标检测技术对通用场景下大中型目标的检测性能已基本满足生产需要,但对于尺寸较小目标的检测效果始终不佳,小目标检测成为限制目标检测领域进一步发展的瓶颈。导致小目标检测性能低下的原因主要是小目标尺寸小,在图像中占据像素量少、特征不明显、易受环境噪声干扰,网络对小目标的特征提取困难。YOLO-v7是一个基于深度学习的一阶段目标检测算法模型,其在目标检测的准确度和速度方面达到了很好的平衡,但受限于小目标的以上特点,该算法对小目标检测效果不佳,针对此问题展开研究,主要工作如下: (1)针对小目标因在图像中像素占比少、关键特征易丢失,导致在特征融合金字塔的多任务学习结构中特征表达被削弱问题,提出基于L-α融合因子的特征融合结构LFPA(LeftFusionFactorPANet)。使用相邻层上的目标数量确定L-α融合因子,并将L-α融合因子加入特征金字塔的层间结构,以控制相邻层间信息传递的比例,从而解决了小目标在层间信息博弈影响下特征表达能力不足的问题,使小目标在多任务学习中获取更多的反向传播参数影响力,加强网络对小目标特征的重视程度,进而提高网络对小目标的检测能力。针对YOLO-v7中路径聚合网络PANet自上而下和自下而上的两条特征融合通路,提出加入融合因子的最佳位置并开展实验验证,证明L-α融合因子对改善特征融合过程中的信息不平衡问题最有利,改进后模型取得的小目标检测效果最佳。 (2)针对小目标因特征提取网络下采样造成信息损失,导致小目标有限的特征信息减少甚至消失的问题,提出DM(DetachandMerge)结构对MP(MaxPooling)模块进行改进,通过对特征图进行拆分与合并操作完成下采样,减少了小目标在特征提取过程中的信息损失,增强其特征表达能力。针对小目标分辨率低、携带特征信息难以提取问题,提出GR(GroupedResidual)结构,采用分组残差卷积的方式提取不同通道维度上的小目标特征,增强模型对小目标特征的感知能力,DM和GR组成DMG结构。针对小目标边缘模糊,容易被环境噪声因素干扰的问题,提出多尺度压缩注意力机制MSA(Multi-ScaleSqueezeAttention),使网络建立长程的通道依赖性,利用残差网络加强对小目标特征信息的复用,提高了网络对小目标关键特征的关注度,弱化无关的背景信息。实验证明所提出的DMG和MSA模块有助于改善YOLO-v7的小目标检测效果。 综上所述,本研究基于特征融合和注意力残差网络对YOLO-v7算法提出改进。较之原始的YOLO-v7算法,综合改进后的算法在TinyPerson数据集上APtiny50提高了3.89%,APsmall50提高了3.11%;在MSCOCO数据集上AP提高2.5%,APs提高了4.3%,超越当前部分主流算法,证明了所提改进算法对小目标检测性能的有效性和先进性。