基于深度学习的手势识别方法与应用研究

王通¹

扫码查看

作者信息

1. 山东科技大学
折叠

摘要

在当今生活中，人机交互已经成为不可或缺的一部分。手势识别是人机交互领域中的重要研究方向，但传统的手势识别技术仍存在一些问题，例如，需要人工干预的特征设计、准确率不高以及鲁棒性差等。随着深度学习的迅猛发展，卷积神经网络(ConvolutionalNeuralNetwork,CNN)逐渐应用于该领域。许多现有的深度学习手势识别算法通常使用非常深的神经网络，模型的参数量(Parameters)相对较多，需要计算机需要具备较高的计算能力，这限制了手势识别技术在实际应用中的广泛使用。因此，需要研究探索更为高效的算法，以提高手势识别的实用性。本文的主要研究工作如下: (1)针对静态手势识别领域，本文提出了一种基于多层感知机(MultilayerPerceptron,MLP)和CNN的MIFD-Net(Multi-inputFusionDeepNetwork)静态手势识别模型。MIFD-Net模型通过欧几里得距离归一化(EuclideanDistanceNormalization,ED-Normalization)处理手部关键点数据，并对手势图像进行预处理，去除复杂的背景，保留了手势信息。最后该模型使用自适应权重特征融合(AdaptiveWeightingFeatureFusion,AWFF)模块将分别由MLP和CNN网络提取到的特征进行融合，实现了不同数据之间的相互增强。实验结果表明，MIFD-Net模型在本文自建的Ⅻ-Gesture数据集上平均识别准确率达99.65％,在NUS-Ⅱ数据集上的准确率为98.89％。相较于其他手势识别模型，该模型在保持较高识别率的前提下，显著减少了其计算量(FLOPs)和参数量。 (2)在动态手势识别方面，本文提出了一种基于三维卷积神经网络(Three-dimensionalConvolutionalNeuralNetwork,3DCNN)和门控制循环神经网络(GatedRecurrentUnit,GRU)的3DCNN-GRU模型。该模型使用并行的网络结构提取手势视频数据以及对应的手势关键点数据特征，将视频帧作为3DCNN的输入，对应的关键点数据作为GRU的输入，通过AWFF融合3DCNN和GRU提取到的特征。该模型实现了不同数据的信息互补，提高了动态手势识别的准确率。实验结果表明，该模型在本文自建的DWL动态数据集上实现了96.41％的准确率，在Jester公共数据集的测试集上的准确率为95.91％。 (3)本文设计并开发了一个基于手势识别的智能小车控制系统。该系统结合了静态手势识别MIFD-Net模型和动态手势识别3DCNN-GRU模型，通过摄像头采集手势图像和动态视频序列，实现了对静态手势和动态手势的识别，并利用手势指令来控制小车的运动。该系统提高了人机交互的便捷性和自然性，同时也为未来的智能交互提供了新的思路和应用方向。

关键词

手势识别/多层感知机/MIFD-Net模型/三维卷积神经网络/门控制循环神经网络

引用本文复制引用

授予学位

硕士

学科专业

电子信息

导师

曾庆田；宋戈

学位年度

2023

学位授予单位

山东科技大学

语种

中文

中图分类号

段落导航