基于深度学习的动态手势识别方法研究

曹方洲¹

扫码查看

作者信息

1. 西安理工大学
折叠

摘要

人机交互一直被认为是一个活跃的研究领域，同时动态手势是人与人之间交流的一种自然形式，因此最适合应用于人机交互。动态手势存在着较高的自由度、外观差异性和时间维度差异性等问题，因此对动态手势进行识别具有一定的挑战性。传统的识别方法存在识别效果差、设备要求高的问题，所以课题研究基于深度学习的动态手势识别方法。通过对现有基于深度学习的动态手势识别方法的研究与分析，发现了该课题方向存在一些问题。首先，在深度学习方面，相对于二维卷积神经网络而言，三维卷积神经网络更适合于时空特征学习，进而提升动态手势的识别效果，但三维卷积神经网络存在着训练参数多、模型较大等问题，因此在动态手势识别方面，基于三维卷积神经网络的优化工作还有待进一步探究；其次，卷积神经网络框架搭建完成后，训练所得到的网络模型参数数量及模型大小通常是固定的，不能够根据实际需要对其进行动态的调整；最后，为了提高准确率，在网络训练过程中，对于各项参数的优化调整、网络中数据输入的形式与内容等实验探究还不够充分。针对以上问题，本文进行了相关研究与实验，主要内容如下： (1)三维卷积相对于二维卷积存在着计算量大、模型参数多的问题，为了在保持模型精度相当的情况下，在三维卷积过程中将标准卷积分解为深度卷积和逐点卷积，设计了基于3D深度可分离卷积网络用以手势识别； (2)为了优化网络模型，加快训练和识别速度，在基于3D深度可分离卷积网络的基础上，借鉴二维卷积神经网络中残差连接、组卷积及通道混洗的设计思想，结合3D手势识别网络搭建中提升模型识别效果、减小模型参数的具体要求，分别设计了基于3D深度可分离卷积残差连接网络和基于3D深度可分离组卷积及通道混洗网络用以手势识别； (3)为了对网络模型参数数量及模型大小实现动态化调整，引入网络宽度调整系数，通过在不同调整系数下，可视化分析网络模型训练过程中训练损失、训练精度及模型验证精度的变化情况，对平衡识别结果与计算复杂性进行了探索性工作。同时，通过实验探究了不同输入形式、输入内容对网络模型识别结果的影响； (4)使用Qt可视化界面设计库，开发了手势识别系统的人机交互界面，并介绍了交互界面的使用方法。

关键词

动态手势识别/三维卷积神经网络/深度可分离卷积/残差连接/通道混洗

引用本文复制引用

授予学位

硕士

学科专业

信号与通信工程;信号与信息处理

导师

张二虎

学位年度

2021

学位授予单位

西安理工大学

语种

中文

中图分类号

段落导航