首页|基于关键帧提取和三流网络模型的人体行为识别研究

基于关键帧提取和三流网络模型的人体行为识别研究

司马铭骏

基于关键帧提取和三流网络模型的人体行为识别研究

司马铭骏1
扫码查看

作者信息

  • 1. 四川大学
  • 折叠

摘要

人体行为识别(HumanActionRecognition,HAR)是计算机视觉中一种重要的场景分析技术,在视频查找、智能监控、运动训练等方面得到了广泛应用。如今随着传感器的快速发展,使得视频具有了高帧率的特性,导致视频序列中存在大量的冗余信息。同时,视频由多帧图像组成,本身就具有较高的复杂性,存在单一特征无法充分表示的问题。为了解决上述问题,本文针对关键帧提取和多模态特征融合进行研究,主要工作和创新点如下: (1)针对关键帧提取,提出了一种基于对比学习的关键帧聚类算法。该算法首先使用实例分割技术,实现了针对人体行为视频的注意力算法。得到人体显著活动区域后,使用基于对比学习的深度聚类算法对注意力机制得到的新帧进行关键帧聚类,得到最终的关键帧。实验结果表明,本文提出的关键帧提取算法能有效解决视频序列中存在大量冗余信息的问题,为后续的人体行为识别提供了技术支撑。 (2)提出了一种融合关键帧的双流神经网络优化算法。该方法考虑到传统双流神经网络中对于原始图片特征提取不足的问题,使用实例分割对人体部分进行通道加权改进空间流,使用关键帧选取光流段改进时间流。同时考虑到传统双流网络使用的卷积网络表征能力弱的问题,引入SE-ResNet对网络结构进行改进。实验结果表明,对RGB图和光流图的改进均有效果,对SE-ResNet的引入也能有效的提升识别的准确率。 (3)提出了一种基于关键帧的时空叠加流对双流进行补充。该算法首先使用实例分割将RGB图提取为轮廓图,引入双向运动历史图的算法对关键帧轮廓图进行自适应时空叠加,获得最终的时空叠加图。将时空叠加图作为第三流对双流进行补充。同时,提出一种三层的特征融合算法对三流的特征进行融合。实验结果表明,时空叠加流能够很好的作为空间流与时间流的补充,特征融合的效果也好于决策融合的效果。 本文提出的基于关键帧提取和三流网络模型的人体行为识别算法,在典型的公开数据集上进行了实验,且比以往方法表现出更好的效果,验证了本文方法的有效性。

关键词

人体行为识别/关键帧提取/对比学习/特征融合

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

冯子亮

学位年度

2022

学位授予单位

四川大学

语种

中文

中图分类号

TP
段落导航相关论文