基于Kinect骨骼数据的人体动作识别研究

刘书轩¹

扫码查看

作者信息

1. 山东中医药大学
折叠

摘要

目的：对于人体动作识别现实性问题，不同位置的相机捕获目标空间状态具有差异性，单视角下的人体动作识别模型的鲁棒性不足，且类间人体各区域运动幅度与贡献度不同，如何突出人体局部运动状态也是影响人体动作识别的关键性问题。本文采用了Kinect深度相机获取的骨骼数据进行人体动作识别研究，对分块化彩色编码骨骼数据在不同视角状态下的动作识别及多角度特征融合进行了实验研究。方法：本文首先对骨骼数据进行了预处理操作，提出了一种基于模板匹配方法的视频序列人体动作轨迹捕捉算法3V-MHIs，对深度相机捕捉的20个骨骼关节点空间坐标进行骨骼框架三维重建与分块化染色，分别使用三视角输出得到三个Skl-Color序列，通过帧间差法对通道分离后的Skl-Color序列进行R、G、B单通道运动历史图获取，最终进行通道合并获得RGB-MHIs。提出了一种双流异构网络模型，通过ResNet与ConvLSTM组成的异构模型分别对骨骼数据空间、时间特征进行学习，并对ConvLSTM模型不同层数和隐含层个数进行实验。增加特征融合模块将ResNet模型得到的特征采用三种融合策略的四种方法：均值化、最大值化、两种通道堆叠法进行实验对比；基于空间特征与时间特征差异性，异构模型采用串联的方式进行融合，作为模型的最终输入数据。结果：本文在人体动作识别公开数据集UTD-MHAD上进行了实验研究。在单视角ResNet模型中，正视角RGB-MHIf达到了最高的识别准确率（92.77%），顶视角输入模型相对较低（90.47%），其原因为基于三维空间映射的顶视角会产生一定量的信息堆叠现象；随后对三种同构ResNet-50模型进行特征融合，分别获得了96.18%、97.18%、96.65%、96.65%的识别准确率；实验发现采用四层隐含层个数为64的ConvLSTM模型可以达到相对较好的识别准确率（91.01%）；最后通过时空特征融合的双流异构模型在UTD-MHAD数据集上最终识别准确率达到了98.58%。结论：本文针对多角度下目标状态不同问题在运动历史图与深度运动图基础上提出了3V-MHIs算法，良好的保留了人体局部运动特征。双流异构模型采用的ResNet结合ConvLSTM对于人体动作的图像紧密性空间特征和多帧稀疏性时间特征进行了建模分析，并在UTD-MHAD数据集上达到了较高的识别准确率，对于后续研究采用骨骼数据或异构网络模型进行人体动作识别提供了一定的参考。

关键词

视频图像/人体动作识别/多角度特征融合/Kinect骨骼数据

引用本文复制引用

授予学位

硕士

学科专业

生物医学工程

导师

曹慧

学位年度

2022

学位授予单位

山东中医药大学

语种

中文

中图分类号

段落导航