摘要
手势是人类除语言以外的重要交流形式,也是人机交互中常用的交流工具。基于可穿戴接触式设备的传统手势识别方法所需要的设备结构复杂且价格昂贵,需要用户将其正确佩戴并进行各种配置,在使用过程中有明显的不便感。另外,早期基于视觉的静态手势识别技术依靠手的形状与轮廓信息实现手势识别,支持的手势类别受限,同时难以适应复杂环境场景。动态手势具有更加丰富和准确的信息,能够拓宽人机交互的边界,既可以使人类以更加自然便捷的方式控制机器,又能够使机器直接理解人类意图,更好地服务于人类。因此基于视觉的动态手势识别相关技术成为人机交互的研究热点。 本文研究基于单目摄像头的动态手势识别技术。其中,通过对人体骨架组成以及人机交互中手势的主要发生部位的观察分析,提出了将人体骨架和手势部件(头、左手、右手)特征相结合的通用手势模型。此外,借鉴高解析网络、联合嵌入、多尺度特征提取和锚定框等思想,实现了对人体手势空间特征的高精度提取。最后,通过长短期记忆网络将空间特征与时序特征相融合,构造了通用动态手势识别机。在公开的AI-challenger和自制的手势部件数据集上进行网络训练,实现了对交警手势的识别。本文主要工作和成果如下: (1)将人体骨架的空间特征与手势部件的表观特征相结合,提出了一种通用的人体手势模型,其抗干扰性强,且易于移植,适用于各种手势交互场景。 (2)引入高解析骨干网络构造基于高斯热力图的人体关节点提取网络,并引入多尺度特征提取等技术构造人体手势部件表观特征提取网络。实现了人体交互手势中骨骼长度、骨架间夹角、手势部件表观特征编码的高精度提取。 (3)通过引入长短期记忆网络来提取手势的时序特征,设计实现了通用的动态手势识别架构。 此外,将上述研究成果应用于交警指挥手势识别,在移动设备上设计实现了交警手势识别机,并在公开的交警手势识别数据集上开展实验。实验结果证明交警指挥手势识别准确率达到98.72%,同时对光照和复杂背景变化具有更强的抗干扰和适应能力。