摘要
如何为残障人群提供更多的服务引起了社会的普遍关注,人工智能的发展为解决该问题提供了技术支持。目前听障群体居视残、肢残等五大残疾人群数量之首,如何帮助听障人群以及表达不清的老年人群方便、快捷地与外界沟通,不仅是手语识别研究的初衷,也是亟待解决的社会问题。因此,基于深度学习的手语识别有着重要的研究意义。 本文基于图卷积网络、注意力机制、扩散卷积、边缘卷积、知识蒸馏等理论,搭建手语识别框架,并在现实环境下进行手语识别和人机交互。主要工作如下: (1)由于手语视频大多以RGB数据的形式存储,数据量庞大,导致读取、处理时的效率较低,因此本文将基于骨骼点的图卷积网络作为手语识别的主要体系。以扩展感受野、提高时域特征提取能力为目标,改进传统时域卷积模块,构建了非对称多分支时域卷积(AsymmetricMulti-branchTemporalConvolution,MTC),与空间图卷积共同构成了非对称多分支图卷积网络(AsymmetricMulti-branchGCN,AM-GCN),在WLASL2000、AUTSL、CSL数据集的识别精度分别为53.12%、95.88%、98.15%。 (2)为了削减冗余信息,提高特征提取效率,本文设计了时空融合的注意力(SpatialandTemporalFusionAttention,STFA)模块,基于关节点分区实现辨别性时空特征的增强。同时,基于多尺度的竖直、水平卷积设计了非对称卷积通道注意力(AsymmetricConvolutionChannelAttention,ACCA)模块,增强通道特征的提取能力,提高了对图像翻转、旋转的鲁棒性。STFA与ACCA模块被嵌入AM-GCN中获得AM-GCN-A,在WLASL2000、AUTSL、CSL数据集上分别达到57.01%、96.27%、98.20%的识别率。 (3)图卷积网络旨在聚合节点的邻域信息和自身信息获得特征表示,局域信息的获取是关键,为了弥补局域范围不充分的缺陷,本文将适应性扩散卷积嵌入图卷积网络,自动从数据中学习最佳邻域大小及专用传播范围以提高局域建模能力。为了平衡局域建模与全局建模,在上述模型中嵌入边缘卷积以捕获潜在长距离的语义特征,设计了融合模型AEA-GCN(AdaptivediffusionconvolutionandEdgeconvolutionfusedinAM-GCN)并嵌入注意力模块,在WLASL2000、CSL数据集上分别达到57.40%、98.26%的精度。 (4)为了节省算力、提升效率,本文构建了轻量的学生网络S-GCN,经过知识蒸馏,在WLASL2000、AUTSL、CSL数据集上获得了54.00%、95.54%、98.05%的精度,实现了精度与轻量性的兼顾。在此基础上,笔者在现实环境中拍摄手语视频并进行模型微调,在单一背景和家庭背景下完成实时手语识别,并实施身体问询、情绪回馈、物质确认等人机交互的实验,对家庭中特殊群体的照护有着重要意义。