摘要
随着计算机算力和非接触传感设备的飞速发展,基于骨骼数据的人体行为识别技术应用广泛,如机器辅助诊疗设备、体感游戏开发、以及智能安防等。如何从一段序列中挖掘关键行为特征是人体行为分析研究的热点。目前,许多方法基于深度学习框架从不同层面提取运动序列中的特征,并取得了较好的结果。 在建模行为特征时,空间域和时序域的学习是两个关键且具有挑战性的切入点。现有的方法专注于从序列中提取高质量的时空表征信息来提高模型鲁棒性。然而,在对空间视图一致性和时序针对性的研究仍存在一些不足。具体地说,当同一种行为由不同的人展示时,或者在不同的角度观察时,模型往往会给出不同的答案。与人类的观察方式相似,当模型对序列的每一帧赋予相同的注意力时,模型的计算量将大幅增加并且关键行为特征捕捉的性能也会降低。 为了有效解决上述挑战,本课题提出了一种基于时空特征的行为建模框架,它集成了两个重要模块:空间人体视图重置模块(HVRM)和时序方向注意力模块(DAM)。 首先,构建基于卷积神经网络的空间人体视图重置模块。通过训练,该模块学习重置参数,并将不同视角的人体骨架自动重置到最佳的观测视点,有效地缓解了视点变化对模型识别精度带来的影响。 然后,构建基于门控循环单元的时序方向注意力模块。根据每一帧行为的重要性,在X、Y和Z三维方向上对时间序列进行自动加权,增强时序建模的针对性,使行为的关键帧带来对模型识别精度的提升。 接下来,通过提出一种数据预处理方法,增强样本的表达能力,提高模型的鲁棒性,使用预训练的残差网络预测行为类别。并且,空间人体视图重置模块、时序方向注意力模块和残差网络构成了一个端到端的深度学习网络。 最后,本课题在大规模国际数据集上进行了消融实验验证所提模块的有效性和正确性,并且,本课题在四个有挑战性的公开数据集上进行测试,测试结果与最新的方法对比,来进一步验证模型的先进性。