首页|基于深度学习的视频-骨架序列人体动作识别研究

基于深度学习的视频-骨架序列人体动作识别研究

武军

基于深度学习的视频-骨架序列人体动作识别研究

武军1
扫码查看

作者信息

  • 1. 哈尔滨工业大学
  • 折叠

摘要

在基于视觉的人机交互中,利用人体动作是非常有效的方法。然而动作是一个复杂的三维信号,在复杂的场景下高效稳定的识别人体动作仍然存在很多问题。针对人体动作识别问题,本文分别从视频序列、人体骨架序列以及二者的融合中提取动作时空特征,利用卷积神经网络识别分类。根据项目需求,本文研究内容主要分为以下几个部分: 基于视频流的双通道卷积神经网络动作识别算法。针对现有的双通道卷积神经网络由于计算稠密光流速度缓慢的问题,提出一种在训练和识别过程中都是端到端的双通道卷积神经网络框架。网络包含空间和全局时域两个通道,对人体动作进行表征和识别。以MobileNetV2为基础网络,空间通道对动作图像进行深度学习,全局时域通道对能量运动历史图(Energy Motion History Image,EMHI)进行深度学习,然后将两个通道融合,并采用一种多帧融合的方法来提升准确率。 基于骨架序列的卷积神经网络动作识别算法。基于视频的卷积神经网络模型对于场景的变化鲁棒性较差,并且不能在夜间识别。本文提出一种基于骨架序列的动作识别系统,首先对人体骨架序列进行视图不变变换以消除视点的影响,然后将变换后的序列编码到RGB空间,该编码方式可以完整表示人体动作的空间结构信息和时间动态信息,最后设计一个轻量化的卷积神经网络来识别编码后的RGB图像。 基于多数据融合的时序动作检测算法。创新性的将时序动作检测问题转化为一维的目标检测问题,提出一种以YOLO为基础网络的双通道时序动作检测框架,该框架的输入融合了Kinect采集的视频和骨架序列。在视频通道,利用C3D特征提取器提取短时视频的高维特征。在骨架通道,对骨架序列进行视图不变变换。将两个通道的高维特征进行编码作为双通道目标检测网络的输入,最后设计两种方法将其融合。

关键词

深度学习/人体动作/动作识别/卷积神经网络/目标检测

引用本文复制引用

授予学位

硕士

学科专业

机械电子工程

导师

李瑞峰

学位年度

2019

学位授予单位

哈尔滨工业大学

语种

中文

中图分类号

TP
段落导航相关论文