基于数据手套的复杂手语识别方法研究

马全益¹

扫码查看

作者信息

1. 大连海事大学
折叠

摘要

手语识别是一种利用计算机视觉或数据手套等技术，将手语动作转换为自然语言的过程。手语识别对于听障人士和非手语者之间的沟通具有重要意义，但也面临着数据集不足、手势复杂多变、实时性要求高等挑战。虚拟现实技术可以为手语识别提供一个逼真的交互环境，提高用户的沉浸感和体验感。本文提出了一种基于卷积神经网络的手语识别方法，适用于虚拟现实环境，能够有效地捕捉和识别手语动作，并将其转换为文字输出，为听障人群提供了一种新的沟通交流方式。本文的主要工作和创新如下：（1）针对手语识别的数据集获取困难和样本不足的问题，本文选取了十种常用手语，利用Unity3D和数据手套采集手语信息，形成了一个包含10000个样本的手语数据集。为了提高数据质量和一致性，本文对原始数据进行了归一化、平滑等预处理操作，并对数据进行了抽样和规范化处理，以便输入模型进行训练和测试。（2）针对手语动作特征，本文提出多通道三维卷积神经网络模型，该模型分别将弯曲度信息、手指节点相对手和头的位置信息三种数据输入到不同的通道中，通过三维卷积神经网络进行特征提取和融合，从而提高手语识别的准确性。为降低三维卷积神经网络的参数量和计算量，本文将二维卷积核拆分思想引入到三维卷积神经网络中，提出一种新的三维卷积核拆分方法，将三维卷积核分解为时间域和空间域两个子卷积核，从而减少网络的参数量，提升了网络效率。（3）针对手语序列数据中存在无关数据问题，本文提出了一种新的注意力模块，叫做通道-时间注意力模块（channel-temporalattention，简称CTA）。该模块基于自注意力机制，能够动态地分配不同运动特征在不同时间步的权重，从而使模型能够专注于手语序列中的重要信息。本文将该模块集成到卷积核拆分后的卷积神经网络中，模型可以获取更多与手语动作相关的显著特征，同时减少无关特征和冗余数据的影响。本文在采集的手语数据集上进行了多组对比实验与分析。实验结果表明，与单通道三维卷积相比，多通道三维卷积能够有效地提取手语动作在不同通道的特征，从而提高识别准确性，识别率能达到93.3%。三维卷积网络在拆分卷积核并嵌入通道-时间注意力模块后能够更关注与手语动作相关的显著性特征，并有效提高模型性能，识别率提高到97.4%。与其他深度学习的方法相比，本方法能在参数量较少的情况下，能够快速且准确地识别出相应手语动作。本文为手语识别领域提供了一种新的思路和方法。

关键词

数据手套/手语识别/注意力机制/卷积神经网络

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

张德珍

学位年度

2023

学位授予单位

大连海事大学

语种

中文

中图分类号

段落导航