基于3D人体姿态估计的行为识别算法研究

杨洪业¹

扫码查看

作者信息

1. 中国科学院大学
折叠

摘要

理解人类行为是计算机视觉中最重要的任务之一，它能够促进如人机交互、机器人技术以及体感游戏等领域。由3D关节位置组成的骨架能够很好地描述人类的动作，因此近年来基于骨架人类行为识别成为了活跃的研究领域。基于骨架的行为识别的关键是充分挖掘时空间特征。大多数以往的方法直接利用RNN或者CNN来对时空动态性进行建模。然而，这些方法几乎没有探讨关节之间的内部依赖关系。最近一段时间，基于GCN的方法通过将骨架序列建模为时空图在性能上取得了显著的提升。然而大多数基于GCN的方法都存在三个问题:(1)这些方法仅提取通过骨骼直接连接的关节的特征。但是，没有物理连接的远距离关节也提供了用于动作识别的关键信息。例如，当一个人走路时，他的左肘和右膝盖都移动，这形成了“走路”动作的关键模式。由于大多数基于GCN的方法中使用的骨架图基于身体的结构，因此它们无法捕获远距离关节之间的依存关系。(2)在大多数基于GCN的方法中，所有图卷积层都使用相同的归一化邻接矩阵，这些矩阵由在数据集中预先定义好的人体关键点和骨架连接直接计算得到，并且在整个训练过程中始终保持固定。因此，该模型没有足够的能力来提取各种特征。(3)大多数方法都忽略了这样一个事实，即不同的框架和渠道对行动识别的重要性不同。就骨骼序列而言，包含行为的代表性动作的帧应该更加值得关注，x，y以及z轴上关节的移动也应该区别对待。针对上述问题，本文主要提出了一种带有时间-通道的注意力的伪图卷积算法来解决。对于前两个问题，本文和采用一个可学习的矩阵来代替原本的归一化邻接矩阵。在网络训练完成之后，学习到的矩阵可以表示，没有物理连接的两个关节之间的依赖关系。为了描述不同通道和不同帧的不同重要性，本文提出一种时间-通道注意力模块，该模块首先分别重新校准时间和通道特征，然后将这些特征混合在一起以计算组合注意力。本文提出的算法在行为识别数据集上取得了与当前最先进算法相当的性能。

关键词

行为识别/人体姿态估计/注意力机制/伪图卷积算法

引用本文复制引用

授予学位

硕士

学科专业

通信与信息系统

导师

谷宇章

学位年度

2020

学位授予单位

中国科学院大学

语种

中文

中图分类号

段落导航