基于深度学习的无人机航拍图像目标检测算法研究

张玉荣¹

扫码查看

作者信息

1. 哈尔滨商业大学
折叠

摘要

伴随社会和技术的进步，企业借助无人机改革运营方式和提高运营效率的效果愈加显著，“无人机+行业应用”已经成为一大发展趋势。与无人机相关的各类应用及其产品市场需求量巨大，为各种与无人机应用相结合的技术发展带来了空间和动力。在无人机智能系统中，将基于深度学习的计算机视觉技术与无人机航拍技术相结合，实现目标检测是一项重要的工作，而对目标的识别和定位是其最重要的环节之一。与通用目标检测不同，无人机航拍图像具有高分辨率、小尺度目标多且密集、不同类型目标间尺度差异大、背景复杂等特点，因此与其他图像相比，无人机航拍图像使目标检测工作更加困难和复杂。本文针对上述问题，设计了一个基于改进YOLOv5的轻量化目标检测算法，在公开数据集VisDrone-2019上进行了训练和验证。主要的研究成果如下: (1)针对无人机高空拍摄的地面目标尺寸较小且分布密集的特点，本文在原YOLOv5模型三个检测头的基础上，增加了一个专门针对小尺度目标的检测头P2,让浅层的高分辨率特征图参与后续的多尺度特征融合模块，有效避免了网络在多次下采样的过程中丢失小尺度目标的关键特征信息问题，提高了模型对小目标的检测精度。 (2)本文设计了一种增强的多尺度特征融合金字塔网络DSI-FPN,采用参数量和计算量都较少的深度可分离卷积和Involution算子，以及空间注意力机制对FPN+PAN网络进行优化设计，生成信息更丰富的特征图用于网络的检测任务。其次，本文提出了一种自适应通道空间注意力机制SCBAM,在CBAM模块中引入自注意力机制，将非局部信息加入到原本仅具有局部信息的交互中，打破卷积核的限制，扩大模型感受野，提高了模型的特征表达能力。 (3)针对无人机设备部署目标检测器时存在的算力不足问题，本文在模型轻量化设计部分，借鉴知识蒸馏的思想，使用基于特征层的联合教师网络知识蒸馏架构。设计联合教师的蒸馏损失，平衡两个教师网络对真值的贡献，动态调整学生网络的学习走向。该机制可以挖掘教师网络特征层中的潜在知识，指导学生网络学习更具泛化性的特征。通过迁移联合教师网络的中间特征层和输出层的知识信息指导学生网络学习，提升检测精度，并有效降低网络的参数量和模型大小。最后通过实验验证，本文基于YOLOv5m改进后的模型在公开的无人机图像数据集VisDrone-2019上的检测精度达到了 43.9％,相比于原YOLOv5m模型提高了 7.4个百分点。采用知识蒸馏后的模型参数量与之前相比约减少了 58个百分点，检测精度为40.2％,相比于原YOLOv5s模型提高了 7.8个百分点。

关键词

无人机航拍图像/目标检测/深度学习/多尺度特征融合/注意力机制/知识蒸馏

引用本文复制引用

授予学位

硕士

学科专业

信号与信息处理

导师

苏晓东

学位年度

2023

学位授予单位

哈尔滨商业大学

语种

中文

中图分类号

段落导航