基于深度学习的单目摄像头下动态手势识别算法

于峰¹

扫码查看

作者信息

1. 哈尔滨理工大学
折叠

摘要

随着技术的发展，虚拟现实以及智能机器人等相关技术得到了极大的发展，如何高效的与它们进行信息交互成为了研究的热点，其中手势识别技术成为了研究的热点之一。目前效果较好的手势识别技术大都是基于特定的设备的，比如基于数据手套、LeapMotion、Kinect、RealSense等设备的手势识别方案，但是由于其价格昂贵，无法得到大规模的推广。传统手势识别算法中，存在着很大的局限性。虽然这些算法简单直观，但是大都要求识别区域只能存在手势图像或是特定类型的简单背景，大大限制了传统手势识别算法的应用。对于上述情况，本文提出了基于改进SSD(Single Shot MultiBox Detector)目标检测算法和传统算法相结合的手势识别算法。深度学习的目标检测算法中，位置检测与目标分类是同时进行的，这对于大部分情况来说是没有问题的。可是手势识别存在其特殊性，不同类型的手势姿态图像可能会出现包含的现象，在一种手势中包含了其他手势的图像。目前的目标检测算法中，都只关心当前检测区域，不会去联系上下文进行判断，无法将错误的目标检测剔除。因此，本文使用改进SSD进行手势的分割，不进行具体的分类，这样一来降低了目标检测的难度，将原先的多分类设计为二分类的目标检测，这有助于手势区域分割准确率的提升。同时设计了卷积和全连接相结合的神经网络对提取到的手势区域进行分类。限制SSD识别率的重要原因之一是小目标的检测丢失，受制于模型结构，用于检测小目标的特征图靠前，信息表达不够，影响了小目标的识别。本文对vgg16结构进行了更改，将第一个用于检测特征图前的池化层替换为卷积层，保持层数不变的同时增加特征图的表达能力。并且配合颜色空间对肤色进行剔选，将符合条件小区域的图像利用上述神经网络进行分类，根据损失结果，判断其是否为规定手势，进行二次判定，提高最后的识别精度。配合focalloss对改进后SSD模型进行训练，对训练中原本被忽略的大量负类进行关注，提高识别精度。经实验证实，本文提出动态手势识别算法具有较高的准确率和识别速度。

关键词

手势识别/目标检测/图像处理/深度学习/单目摄像头

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

孙博文

学位年度

2021

学位授予单位

哈尔滨理工大学

语种

中文

中图分类号

段落导航