摘要
由于在人机交互、智能监控和视频理解等领域的广泛应用,行为识别一直是计算机视觉领域的研究热点。与RGB视频数据相比,骨架数据对光照、环境变化以及相机的视角变化具有较好的鲁棒性,同时,图卷积网络能够更有效地建模人体骨架拓扑结构。因此,基于图卷积网络的人体骨架行为识别受到了研究者们的广泛关注。虽然现有研究已经取得了一定成果,但仍存在对非物理相连关节间的交互关系探索不足、模型推理成本高以及对运动轨迹相似的不同行为难以区分等问题。针对上述问题,本文提出了三种适合骨架数据的图卷积网络模型。本文的主要研究内容如下: (1)为了更有效地探索非物理相连关节间的交互关系和减少时序冗余信息,提出了一种自适应激活图卷积网络。首先,计算嵌入空间中关节之间的相似度作为节点连接边的权重,自适应地学习骨架空间拓扑结构;其次,利用类激活图和多流网络架构提取更丰富的时空特征信息;最后,在网络中引入时序特征聚合模块,采用空洞卷积跳跃聚合帧级特征,减少时序冗余信息。在NTURGB+D和NTURGB+D120两个骨架行为识别数据集上的实验结果显示,提出方法的识别性能优于经典的双流自适应图卷积网络,其中,在NTURGB+D数据集的跨对象划分方式和跨视角划分方式下,自适应激活图卷积网络的识别准确率分别达到了88.9%和94.5%。实验结果表明,提出的方法是一种有效的人体骨架行为识别方法。 (2)为了有效利用潜藏在人体骨架序列中的时空语义信息并提取多尺度特征,提出了一种语义指导的多尺度神经网络。首先,在时空维度建模时,分别嵌入关节类型语义信息和帧索引语义信息,以增强人体运动特征的表示;其次,在原始人体骨架结构的基础上,通过聚合邻近关节节点,得到与原始骨架图保持依赖关系的多尺度骨架信息,并通过自适应图卷积网络对其进行建模,提取空间多尺度特征;最后,通过对时间卷积网络的神经元分组,利用不同空洞率的空洞卷积构建多尺度时间卷积网络,提取时序多尺度特征。在NTURGB+D和NTURGB+D120两个骨架行为识别数据集上进行实验,其中,在NTURGB+D数据集的跨对象划分方式和跨视角划分方式下,语义指导的多尺度神经网络在参数数量仅为0.93M时,识别准确率分别达到了90.1%和95.8%。结果表明,该网络模型在降低计算成本的同时提高了识别准确率。 (3)为了解决模型对运动轨迹相似的不同行为难以区分问题,提出了基于多阶特征的拓扑优化图卷积网络。首先,鉴于人体运动过程中关节之间形成的夹角是独特的,为了不增加额外训练成本,将角度特征编码嵌入到关节、骨骼和运动信息中,以提高模型区分运动轨迹相似的不同行为的能力;其次,对嵌入角度特征后的关节信息、骨骼信息和运动信息分别通过拓扑优化图卷积网络进行建模,提取互补的时空特征;最后,该网络设计了一个时空信息滑动提取模块,用于增强时空高阶特征信息的关联性。由关节分支、骨骼分支和运动信息分支构成的多流网络在NTURGB+D、NTURGB+D120和Northwestern-UCLA三个骨架行为识别数据集上进行实验,其中,在NTURGB+D数据集的跨对象划分方式和跨视角划分方式下,识别准确率分别达到了92.8%和97.0%,实验结果表明了该方法的优越性。