基于改进SlowFast网络的手语检测识别技术研究

谭禹¹

扫码查看

作者信息

1. 重庆理工大学
折叠

摘要

手语是聋哑人士之间主要的交流方式，通过手部和身体动作传递信息。为了解决聋哑群体和听人之间无障碍沟通的问题，手语识别技术因运而起。手语识别是一个典型的跨学科问题，其目的在于将手势动作转换为更易于理解的自然语言文本。近年来，在手语识别领域，深度学习技术取得了巨大的成功，但手语识别仍然存在着挑战和难题。首先，手语的表征涉及手部动作和身体姿态，如何设计能够全面描述手语特征的手部动作特征及身体姿态特征是亟需解决的问题。其次，由于手语识别受图像背景、光线等外在因素的影响，难以实现对手语的精确识别。此外，因为手语视频中存在冗余的动作、视频量不足影响了手语识别速度和精度。针对上述问题，本文从两个视角提出了两种解决方法。其一，从手语中身体动作的角度出发，提出基于姿态估计的手语识别，该方法是以HR-Net为主干网络，在WLASL2000数据集上验证了其有效性。其二，从手语中手部动作的角度出发，提出了基于手部动作的手语识别，该方法以SlowFast网络为基础，针对手语识别任务从不同角度做出了改进，在DEVISIGN_D数据集取得了83.37%的准确度，并缩减了约20%的识别时间。本文主要工作及创新点如下： (1)针对手语中躯体姿态特征难以提取的问题，引入英文手语WLASL2000数据集，实现了基于高分辨率网络(High-ResolutionNetwork，HR-Net)的手语识别。从手语中躯体姿态的角度出发，首先利用HR-Net提取包含躯体和手部在内的33个关键点特征；然后，通过1×1卷积提取关键点的时序特征；最后，采用空间注意力机制进一步提取关键点的空间特征。并采用迭代优化的策略，逐步提升视觉特征提取器的表征能力。在此基础上，搭建了客户端手语识别系统。该系统以手语视频作为输入，经过手语识别系统翻译后，以文本作为输出。 (2)针对手语中难以充分描述手部动作特征的问题，引入中文手语DEVISIGN_D数据集，提出了基于改进后的SlowFast手语识别模型。从手语中手部动作的角度出发，首先使用YOLOv5检测手部，从而提高对手部信息的关注度；其次，在骨干网络中使用FocalLoss损失函数来增加模型的分类能力；最后，引入通道空间注意力机制以改进SlowFast网络结构，通过提高手部信息的权重来抑制背景的干扰。其中，针对手语视频中存在冗余的动作、视频量不足的问题。提出了一种结合等间距采样法和帧间差分法的关键帧提取算法，可提取出手语视频中的有效动作，从而提升了识别速度；并以手语者惯用左手或惯用右手的动作差异为切入点，对WLASL2000数据集中的训练集视频进行了镜像操作。这样一来，训练集视频数量从原本的18,204扩展到了36,408个，为手语识别的训练提供了更为丰富的数据支持。

关键词

手语检测识别技术/注意力机制/关键帧/改进SlowFast网络

引用本文复制引用

授予学位

硕士

学科专业

电子信息(人工智能)

导师

黄同愿

学位年度

2023

学位授予单位

重庆理工大学

语种

中文

中图分类号

段落导航