基于多尺度和轻量化的无人机手势识别模型研究

徐振朋¹

扫码查看

作者信息

1. 深圳大学
折叠

摘要

手势识别，作为一种直观便捷的人机交互方式，不仅能实现驾驶和家居的智能化控制，还可以作为无人机的控制方式。将手势识别应用于无人机交互控制，可以突破传统遥控器的限制，降低操作难度，推动无人机技术的广泛应用。然而，要实现准确且实时的无人机手势识别，面临着不少挑战。无人机的体型、存储和计算能力限制了手势识别模型的复杂度，同时随着控制距离的增加，更需要解决多尺度和小目标的问题。随着深度学习技术的进步，深度神经网络的表征能力得到了显著增强，为提高手势识别的精度提升提供了可行性。这样的背景下，本文对无人机手势识别模型的性能和网络轻量化进行了深入研究，主要贡献如下：（1）针对操作距离增加带来的多尺度和小目标挑战，本研究提出了一系列改进措施，目标提升无人机手势识别的精度和适应性。基于YOLOv8s框架，创新地构建了特征融合网络SAFPN，通过渐进式的信息融合策略，增强了模型对跨层特征的整合能力，保留了更多细节信息。此外，引入空间金字塔池化的改进版SPPCSPC和SPD-Conv编码转换技术，不仅扩大了模型的感受野，增加了网络深度，也保留了更多的细粒度信息，显著提升了无人机静态手势的识别性能。为解决无人机视角下静态手势识别数据集稀缺的问题，本研究从不同高度和距离采集了19种手势，使用无人机的前置单目相机进行拍摄，并通过开源数据标注工具进行半自动标注，最终构建了包含20,000张图片的多距离无人机静态手势识别数据集MD-UHGRD。在MD-UHGRD上的训练和测试结果表明，模型在保证实时性的同时，mAP提升了0.4，模型的参数量减少了0.9M，检测速度提高了6张/秒，有效满足了实时和准确的识别要求。（2）本研究还致力于解决由无人机的网络模型部署难题，通过采用轻量级网络设计和智能化优化技术，实现了模型的高效部署与性能提升。引入了轻量级网络模块GhostNetV2Bottleneck来替换主干网络中的C2F模块。尽管这导致了检测精度的微小下降，但是使模型的参数量和浮点数计算减少了25%。进而，引入卷积注意力机制(CBAM)以提升网络表征能力，并有效抵消由于模型轻量化带来的性能损失。同时优化了模型中的激活函数，采用LeakyReLU以避免指数运算和死区问题。经过这些优化措施，成功大幅减少了模型参数量和计算需求，验证了轻量化设计的有效性。此外，本文还将优化后的模型部署在嵌入式设备上，以测试其实际部署的可行性和性能。实验结果显示，模型能够在一定距离内实现准确的手势识别，尽管识别效果会随距离增加而降低，但推理速度仍然满足无人机低速飞行控制的需求。

关键词

无人机/手势识别/深度神经网络/轻量化设计

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

齐英剑/欧显平

学位年度

2024

学位授予单位

深圳大学

语种

中文

中图分类号

段落导航