基于深度学习的手势识别方法研究

王相康¹

扫码查看

作者信息

1. 电子科技大学
折叠

摘要

手势在人机交互过程中具有自然、通用等优势。基于视觉的手势识别技术在虚拟环境、手语认知、机器控制等领域存在广阔的应用空间，提高手势识别的准确率和识别速度是手势识别技术的关键所在。本文从以下两个方面研究基于深度学习的手势识别算法。（1）基于光流耦合的手势识别方法。I3D模型在手势识别任务中取得了较好的准却率，但距离投入工程应用还有一定距离，双流I3D模型相较于I3D模型性能更好，但识别手势的时间复杂度大幅增加。针对此问题，本文在I3D网络的基础上研究了一种改进方法，即光流耦合I3D模型，该模型通过时空语义对齐损失将从光流数据中提取的特征耦合到以原始RGB数据作为输入的I3D手势识别模型中。在训练时使用RGB数据和光流数据，当训练完成后，仅使用从摄像头采集到的RGB手势数据。实验结果表明，本章研究的光流耦合I3D手势识别模型在EgoGesture和NVGesture数据集上的识别准却率有显著提升，并且没有降低识别的实时性。（2）基于动态时间场自适应的手势识别方法。在手势识别任务中，识别结果受一些无关因素的影响，如动态背景、近肤色衣物等，注意力机制是解决上述问题的一个很好的方式，注意力机制对重点区域施加权值来提取关键部分的特征，从而提升模型的性能。常用的几种注意力机制，如空间注意力、通道注意力和混合注意力机制都只能将注意力作用于单帧图像上，重点关注区域。而手势是由多帧图像组成的序列，识别的结果受多帧手势图像的共同影响，上述的几种注意力机制都不能很好地满足要求。针对这个问题，研究了一种帧内帧间联合注意力模块，该模块可以同时在多帧连续图像之间和单帧图像内施加注意力，让模型在识别手势的过程中可以避免无关因素的影响。通过对比实验将该模块嵌入至光流耦合I3D模型的合适位置，在EgoGesture和NVGesture上验证了该模块有效性，嵌入帧内帧间联合注意力模块后在两个数据集上的准确率有显著的提升。本文在I3D模型的基础上研究了两种改进方法，通过这两种改进方法，显著提升了I3D手势识别模型的准却率，在两个数据集上充分验证了本文方法的有效性。

关键词

手势识别/深度学习/光流耦合/I3D模型/动态时间场/注意力机制

引用本文复制引用

授予学位

硕士

学科专业

电子与通信工程

导师

徐政五

学位年度

2022

学位授予单位

电子科技大学

语种

中文

中图分类号

段落导航