首页|基于深度可分离网络的军事手语识别研究

基于深度可分离网络的军事手语识别研究

张玉浩

基于深度可分离网络的军事手语识别研究

张玉浩1
扫码查看

作者信息

  • 1. 重庆大学
  • 折叠

摘要

军事手语是一种重要的战术交流形式,特别是在距离有限或要求保持沉默的情况下。遗憾的是,当士兵们看不见对方时,使用军事手语的交流方式就不再有效,这可能会阻碍军事行动。 近年来,基于视觉的手势识别方法一直处于手势识别领域的前沿,但手势识别研究的挑战与困难仍然存在。首先,军事手语中的战术手势为动态的时序动作,由手部的外观和手部运动的轨迹来完整表示,如何设计能够充分描述战术手势特性的手型及轨迹特征是本课题必须解决的问题。由于军事手语本身的灵活性和细节性以及较强的时序性要求,对识别精度带来了一定的挑战。此外,对于军事手语识别任务,目前还缺乏特定的数据集和模型。 针对上述问题,本文结合深度学习技术展开了研究,并提出方法用于解决军事手语识别中的难点,其主要工作内容及创新点如下: (1)通过文献调研,调查了目前关于军事手语识别的研究现状,同时总结了手势识别领域的国内外研究现状以及已有方法的理论与实践。 (2)制作了一个新的第一人称手势数据集MSL,它包含16类军事手语中的战术手势,共3840个真实采集的样本,超过110000个视频帧,尺寸为320×240,该数据集具有较好的复杂性与真实性,能够用于深度神经网络的训练,解决目前军事手语识别研究缺少专用公共数据集的困难。 (3)针对军事手语识别的时序性要求以及在手势特征提取方面的困难,引入了三维卷积网络,对基础的三维卷积网络C3D进行改进设计,构建了三维残差网络架构。通过三维卷积对于时空特征的自主学习能力,而不是人工设计运动特征,同时提取军事手语数据的时空特征,实现对军事手语的准确识别,验证了方法的有效性。 (4)提出了一种基于深度可分离卷积的深度网络,并命名为ST-Xception架构,将卷积核与池化核扩展到三维,该网络可以描述战术手势固有的时空关系。通过部署深度可分离卷积,显著减少了网络中所需的参数数量,极大地提升了三维卷积网络模型的效率。用自适应平均池化来代替完全连接层,从而进一步降低了计算量并减轻了过拟合的情况。实验结果表明,在自建的MSL数据集和其他两个基准数据集上,本文所提出的模型都优于现有的模型。

关键词

军事手语识别/三维卷积神经网络/深度可分离卷积/深度学习

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

刘礼

学位年度

2021

学位授予单位

重庆大学

语种

中文

中图分类号

TP
段落导航相关论文