摘要
动态手势控制作为一种非接触式的人机交互方式,在工业物联网、智能家居、汽车驾驶、远程外科手术、VR游戏、手语翻译等多个领域具有广泛的应用前景。动态手势控制的前提是准确识别预定的各种手势。传统的毫米波雷达动态手势识别方法主要集中在对实验室环境下采集到的数据进行分类识别,没有考虑实际情况下的干扰问题。本文针对随机干扰环境下的毫米波雷达动态手势识别方法展开研究,主要工作如下: 1.现有毫米波雷达动态手势识别方法所使用的雷达手势数据集均在实验室环境下采集。然而,在实际应用中往往存在随机的动态干扰,如雷达与手势之间可能存在人员走动、挥手、抛物等。这些干扰的回波与有效手势的回波耦合在一起,利用常规的雷达信号处理算法很难将其滤除,这会使得手势识别的准确率大幅度降低。针对这一挑战,本文提出一种基于2DCNN-Transformer的毫米波雷达动态手势识别方法。首先,将FMCW毫米波雷达采集的原始回波按照Chirps×Samples×Frames的格式,重组为三维数据块,并采用均值相消法滤除静态干扰。其次,采用二维快速傅里叶变换提取动态手势的距离和多普勒信息,得到动态手势的距离-时间图与多普勒-时间图(速度-时间图),并通过相干积累提升回波信噪比。最后,搭建2DCNN-Transformer网络模型进行动态手势识别,利用2DCNN提取手势的局部特征,通过堆叠多个Transformer模块,以充分提取更深层次的有效特征。使用Transformer网络一方面可以增强对手势特征的全局性关注,另一方面Transformer网络中的多头注意力机制能够有效抑制环境中的随机动态干扰。实验结果表明,所提方法在无干扰场景下和随机动态干扰的场景下,手势识别准确率分别达到98%和96%以上,均优于传统的手势识别方法。 2.现有的毫米波雷达手势识别方法在各自的数据集上,都达到了较高的识别精度。然而,这些方法还存在以下几个问题:(1)大多数手势识别方法采用普通卷积模块来构建网络模型,并且随着卷积神经网络的加深,模型的复杂度和参数量不断增加,导致模型过于臃肿,难以移植到嵌入式设备中。(2)虽然网络的加深可以使模型学习更丰富的特征,但是随着下采样次数的增加,模型将丢失大量的细节信息,影响识别精度。针对上述问题,本文提出一种基于多级特征融合的毫米波雷达动态手势识别方法。首先,将FMCW毫米波雷达采集的每一帧原始回波按照Chirps×Samples格式排列;然后,采用二维快速傅里叶变换提取动态手势的距离和多普勒信息,得到手势的距离-时间图和多普勒-时间图(速度-时间图),并通过相干积累提升回波信噪比。最后,搭建MLFF-Transformer网络进行动态手势识别。MLFF-Transformer主要由多级特征融合(Multi-LevelFeatureFusion,MLFF)模块和Transformer模块构成。MLFF模块通过残差的方式将网络的浅层、中层和深层特征进行融合,并使用深度可分离卷积大幅降低了模型的参数规模。利用Transformer模块的多头注意力机制获取动态手势的全局特征,并关注重要特征。实验结果表明,在具有10%干扰的数据集上,所提模型的平均识别准确率达到99.11%。同时,所提模型参数量为0.42M,仅为MobileNetV3-Samll模型参数量的25%。 3.传统方法主要在模型上对网络进行不断改进,进而提高模型的识别准确率而忽略了模型的训练速度和模型的复杂度,导致模型难以应用在嵌入式平台上。针对此问题,本文提出一种基于LSTM-Transformer的毫米波雷达动态手势识别方法。首先,将动态手势的运动轨迹以点的形式作为网络的输入,使网络的输入数据量大大减小。其次,使用LSTM模块替换卷积模块并结合Transformer模块,构成整个算法框架。实验结果表明,所提模型在含有10%干扰的数据集上的识别准确率达到了98.85%,识别效果优于同类模型。此外,该模型的参数量仅有0.014M。该方法相比于卷积方法,算法复杂度更低、网络训练时间更短,在硬件资源有限的情况下移植性更好。