摘要
人体行为识别在社会生活中具有广泛的应用场景,例如智能监控、医疗健康以及运动员辅助训练等,近年来逐渐成为热门研究方向之一。与RGB图像与深度图像相比,3D骨架序列因其特征表示简单且不易受外界环境影响等优点,逐渐成为主流研究方向。现有的基于骨架的人体行为识别技术还不完善,存在识别性能不佳等问题。本文基于图卷积网络,对提取3D骨架的空间依赖关系、时间特征表达以及构建时空域复杂的共现关系等问题进行了深入研究,并在NTU-RGBD60与NTU-RGBD120数据集上进行实验。 首先,针对人体运动时身体各个部分存在运动差异信息,提出了基于骨架子图的图卷积模型。该模型根据人体物理结构将骨架图划分为四部分,分别对每一部分执行空间图卷积操作以捕捉不同部分间存在的运动差异特征,然后通过特征融合函数聚合各个部分的依赖性,完成在空间维度上的特征提取工作。 其次,针对关节间特征分布不均匀的特点,提出了双重注意力机制。该机制通过对通道域和空间域特征分配不同的注意力权重,使模型将关注点聚焦于对人体行为识别有效的关键区域上。该机制通过串联的方式将通道注意力子模块与空间注意力子模块进行连接,实现对原始特征的重标定任务。同时添加了残差连接,防止当通道注意力权重参数出现零时从而导致网络性能降低的情况。 最后,在融合前两章模型的基础上,针对图卷积网络中的原始图结构是基于人体物理连接的固定结构,忽略了未相连节点间的相关性,提出了一种自适应图卷积网络模型。该模型通过在图卷积中加入可学习参数,使得图结构可以根据不同样本进行自适应调整。在此基础上,针对大多数方法只利用了关节信息从而缺乏高层次的骨架特征表达,提出了一种多分支输入模型,将关节信息、骨骼信息与关节运动信息等多语义特征分别建模进行训练,最后将多分支结果进行融合,进一步加强骨骼运动信息的表达能力。