摘要
手语识别是一种利用计算机视觉或数据手套等技术,将手语动作转换为自然语言的过程。手语识别对于听障人士和非手语者之间的沟通具有重要意义,但也面临着数据集不足、手势复杂多变、实时性要求高等挑战。虚拟现实技术可以为手语识别提供一个逼真的交互环境,提高用户的沉浸感和体验感。本文提出了一种基于卷积神经网络的手语识别方法,适用于虚拟现实环境,能够有效地捕捉和识别手语动作,并将其转换为文字输出,为听障人群提供了一种新的沟通交流方式。本文的主要工作和创新如下: (1)针对手语识别的数据集获取困难和样本不足的问题,本文选取了十种常用手语,利用Unity3D和数据手套采集手语信息,形成了一个包含10000个样本的手语数据集。为了提高数据质量和一致性,本文对原始数据进行了归一化、平滑等预处理操作,并对数据进行了抽样和规范化处理,以便输入模型进行训练和测试。 (2)针对手语动作特征,本文提出多通道三维卷积神经网络模型,该模型分别将弯曲度信息、手指节点相对手和头的位置信息三种数据输入到不同的通道中,通过三维卷积神经网络进行特征提取和融合,从而提高手语识别的准确性。为降低三维卷积神经网络的参数量和计算量,本文将二维卷积核拆分思想引入到三维卷积神经网络中,提出一种新的三维卷积核拆分方法,将三维卷积核分解为时间域和空间域两个子卷积核,从而减少网络的参数量,提升了网络效率。 (3)针对手语序列数据中存在无关数据问题,本文提出了一种新的注意力模块,叫做通道-时间注意力模块(channel-temporalattention,简称CTA)。该模块基于自注意力机制,能够动态地分配不同运动特征在不同时间步的权重,从而使模型能够专注于手语序列中的重要信息。本文将该模块集成到卷积核拆分后的卷积神经网络中,模型可以获取更多与手语动作相关的显著特征,同时减少无关特征和冗余数据的影响。 本文在采集的手语数据集上进行了多组对比实验与分析。实验结果表明,与单通道三维卷积相比,多通道三维卷积能够有效地提取手语动作在不同通道的特征,从而提高识别准确性,识别率能达到93.3%。三维卷积网络在拆分卷积核并嵌入通道-时间注意力模块后能够更关注与手语动作相关的显著性特征,并有效提高模型性能,识别率提高到97.4%。与其他深度学习的方法相比,本方法能在参数量较少的情况下,能够快速且准确地识别出相应手语动作。本文为手语识别领域提供了一种新的思路和方法。