摘要
随着计算机技术的飞速发展,人机交互技术旨在令计算机听懂人类的语言,以某种方式与人类进行沟通和交流。手语识别是人机交互技术中不可或缺的一环,通过让计算机读懂手语、翻译手语,可以使从不了解手语的人与使用手语聋哑人士进行无障碍的沟通交流,也为聋哑人士在一些公共场所得到更舒适的便利服务提供了技术支持。现有的针对于手语识别的研究多使用可以穿戴的数据手套或可以贴附在手臂上的肌电感应装置、基于计算机视觉的光学照相机和可以获取深度信息的深度传感器等,对比现有方式的一些优缺点,基于电磁信号的雷达传感器价格便宜,即使在弱光或无光环境下也可以正常使用,在手势识别领域已经取得了较大的发展。由于手语也是动作更加复杂的手势,所以本文提出使用电磁信号去表达手语目标的特征并进行解析和理解。针对于目前研究中数据集的缺乏和大多手语特征相似的难点,本文使用了对抗生成网络扩增数据集的大小,并引入了注意力机制提高模型的细粒度分析能力。同时为了模型的运行效率,使用了知识蒸馏对大型的,识别准确率较高的网络进行模型压缩。实验在自行搭建的24GHz的多普勒雷达系统上进行了测试,研究了15种可以用双手和单手表达的中国手语孤立词汇的识别准确率,按照手语识别技术中目标样本采集、语义可视化和释义解析分类三个步骤,从理论上,方法上,实验上验证了使用电磁信号进行手语目标的表达和理解的可行性,取得的相关成果如下: 首先,在时频域上进行手语语义的表达,探求手语目标在另一种维度上的可视化结果。根据采集到的电磁信号的非平稳性,采用了两种区别于傅里叶变换的时频分析方法进行手语的表达,分别为STFT和CEMD,得到了15种手语孤立词汇的时频频谱,两种方法各有优势,STFT时频分辨率虽然不能兼顾,但处理的运行时间较快,CEMD的频率分辨率较高,但处理的速度相对较慢。 其次,使用深度学习中的卷积神经网络进行了手语目标的电磁语义理解,在主干网络Resnet-18引入了注意力机制模块,增强了模型的细粒度区分力。使用了5折交叉验证的方法来获得一般性的结果。对比未引入和引入了注意力机制的两种网络,5折的平均识别准确率分别为93.1%和94.5%,引入了注意力机制的网络的平均识别准确率提升了1.4%。同时采用了Grad-CAM对手语目标的时频图进行可视化处理,验证了注意力模型可以提升准确率。由于本文自行采集的样本数据量较小,容易造成训练中的过拟合的问题,本文使用了L2正则化权重衰减和DCGAN数据增强两个角度来避免过拟合的发生。通过DCGAN,数据集样本的大小扩增为之前的两倍,在引入了注意力机制的网络上的5折识别准确率为99.1%,相较没有数据增强的原始数据集有了4.6%的准确率提升,验证了通过生成式的数据增强方法可以在一定程度上改进过拟概率和识别准确率。 最后,使用了知识蒸馏算法对模型进行压缩,分别采用了较为传统的知识蒸馏和拓展样本间结构维度的相关性知识蒸馏,使用引入注意力机制的Resnet-18作为教师网络,在一个拥有三层卷积的小型学生网络和两个可以部署于移动端的轻量化网络上进行了验证。在传统的知识蒸馏上,经过蒸馏后的学生网络准确率由89.2%提升至92.9%,有3.7%的提升,同时模型参数量由11M降低为0.13M,模型大小由43MB下降为511KB。在基于数据增强后的相关性知识蒸馏上,小型的学生网络准确率通过RKD-D的作用有了3%的提升,而在另外两种自身识别准确率便已经很高的网络上,仅有1.6%和0.8%的轻微提升,但也足以证明知识蒸馏对于模型压缩和识别精度的有效性。