基于图卷积的人体姿态估计和动作识别

梁家侥¹

扫码查看

作者信息

1. 广西大学
折叠

摘要

人体行为分析通过从图像、视频或传感器中理解，描述和识别人体的行为。其中有两项重要任务分别是人体姿态估计与基于骨架的动作识别。随着深度神经网络的快速发展，近期基于图卷积神经网络的方法受到越来越多研究人员关注。对于处理图结构等排列不整齐的非欧几里得数据，图卷积有它独到的优势，人体的骨架可以形式的表现为图、关节为结点，骨骼为边来组建了一种不同于图像的新表达形式。但以往的方法并没有充分利用好人体骨架连接的图结构来提取有效的骨架特征，同时，受限于一阶的邻接矩阵，图卷积层无法有效地构建隐式的高阶关系，这些对人体骨架的建模造成了困难。此外，基于骨架的动作识别任务中，在空间上的特征提取依赖于固定的拓扑结构信息，且在时间建模上通常使用比较单一的网络层结构，这就造成基于骨架的动作识别任务缺乏灵活性和有效性。为了缓解在上述中提到的问题，本文有针对性地提出了用于三维人体姿态估计的语义-切比雪夫图卷积注意力网络。该网络模型由Transformer、语义图卷积和切比雪夫图卷积组成于一个编码器解码器结构中。Transformer 与语义图卷积的新型组合可以保留人体结构信息同时扩大了感受野来学习人体骨架的全局信息，且新型切比雪夫图卷积可以更有效地提取到局部关节远范围关系。对基于骨架动作识别任务中存在的问题提出了基于时空通道聚合图卷积和多尺度时间卷积网络来捕捉多尺度信息。该模型由时空通道图卷积模块以及多尺度时间卷积模块组成，时空通道图卷积通过骨架系列样本来生成对应的通道拓扑图，多尺度时间卷积模块使用了多个不同时间卷积的分支来提取骨架动作在时间顺序上关键帧的信息。在三维人体姿态估计任务中使用Human3.6M和MPI-INF-3DHP数据集对所提出的语义-切比雪夫图卷积注意力网络进行验证，并取得良好的结果。使用NTU-RGB+D和NTU-RGB+D 120数据集分别对提出骨架动作识别网络进行实验验证，证实了模型的良好性能。

关键词

人体姿态估计/动作识别/图卷积/注意力机制/Transformer模型

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

尹梦晓/马玉林

学位年度

2024

学位授予单位

广西大学

语种

中文

中图分类号

段落导航