摘要
手势识别具有自然、直观和操作便捷的优点,广泛应用于人机交互领域。根据获取手势输入数据的技术差异,手势识别可划分为2种方法:基于可穿戴设备和基于视觉。在基于视觉的手势识别方法中,静态RGB(Red Green Blue)手势仅需凭借普通的摄像头就可以随时随地被捕获,无需额外的相机采集深度信息,具有更高的实用价值。静态RGB手势具有多样性、多义性和高自由度等特点,此外,光照条件、背景复杂度等因素对识别精度都有较大的影响。深度目标检测网络对复杂条件下的手势检测任务有着出色的表现,但大部分目标检测模型其计算量和参数量仍十分庞大,难以嵌入到小型终端上使用,限制了模型的实际应用场景。因此本研究构建了轻量型的手势检测模型,并将该模型移植到小型设备上使用,具体的研究工作如下: (1)手势数据集的构建和预处理。本研究的手势数据集通过线上和线下2种方式进行采集,该数据集包含15种不同尺度、不同背景的手势图像,每种手势具有一定的社交语义。数据的采集环境基本涵盖了一般场景下的手势检测环境,满足实际的检测需求,并使用标注工具进行标注。为了扩增数据样本量并防止模型的过拟合,通过饱和度调整、色彩变化、Mosaic等方式进行数据增强。 (2)轻量型手势检测模型的研究。本研究基于YOLOv4-tiny网络结构,构建了高效、轻量的手势检测模型。首先引入表征力更强、成本更低的重影特征映射,优化网络的特征提取模块,增强网络获取多尺度手势特征的能力,同时降低了网络的计算量。然后,对比分析了多种激活函数并采用Swish作为主激活函数,提升网络对手势数据进行非线性建模的能力,进一步提升手势识别精度。最后,嵌入挤压激励模块作为网络的通道注意力机制,融入全局特征信息,并依据特征权重对其进行重标定,减少背景等无关信息的干扰,提高网络对细节特征的表达能力。在自建手势数据集上的实验结果表明,相比其他对比模型,本研究提出的模型能够精准地分类和实时地检测不同环境条件下的多尺度手势,具有最高的识别准确率和较优的检测速度,尤其对小尺度的手势识别更具优势。同时,本研究提出的模型在公共的手势数据集上识别准确率也得到了提升,说明其鲁棒性和泛化性。 (3)交互式手势识别软件的研发。为拓展手势识别的应用场景,将手势检测模型移植到手机端使用,设研发了手势识别软件。该软件基于相机实时捕捉到的手势图像,可在离线环境下推理模型,并实现了手势检测、手势拍照和手势动画3种交互功能。软件搭载了本文模型并实现了交互式的手势识别功能,提升了本文模型的实用性。