基于深度学习的实时动作识别方法研究

武历展¹

扫码查看

作者信息

1. 长安大学
折叠

摘要

近年来，随着计算机视觉领域的发展，基于深度学习的动作识别方法已逐渐应用到医疗监护、智能监控、运动分析等领域，是当前动作识别的主流方向和研究热点。然而，这些动作识别方法在实际应用中仍然存在实时性差、准确性低、鲁棒性弱等问题。基于此，本论文研究基于深度学习的实时动作识别方法具有一定的实际意义。论文着重对人物目标检测、骨架提取和姿态估计以及动作识别方法进行了研究，主要研究工作如下： 1. 针对现有人物目标检测模型存在的易漏检、鲁棒性和泛化能力差等问题，提出了一种基于改进YOLOv5s 的人物目标检测方法。首先，对Le2i数据集进行多种方式扩充，以增强训练模型的鲁棒性和泛化能力；其次，使用 MobileNetV3 作为主干网络来进行特征提取，以协调平衡模型的轻量化和准确性关系; 然后，利用 BiFPN 增强了模型多尺度特征的融合能力，并使用 CBAM 轻量级注意力机制，提升了模型的准确性；最后，引入Focal Loss 损失评估使模型更注重挖掘困难样本特征，改善了正负样本失衡的问题。实验结果表明，优化后的YOLOv5s模型，在精确度、F1分数、检测速度上均有所提升。 2. 针对骨架提取和姿态估计的实时性差的问题，提出了一种轻量化的优化模型Light_Alphapose。首先，将姿态估计模型 Alphapose 中的目标检测器替换为本文优化后的YOLOv5s，在确保准确性的同时，极大的提升了目标检测的实时性和模型轻量化水平；其次，通过采用轻量化的姿态估计平滑滤波器，改善了骨架序列处理时的抖动问题；最后通过实验验证，Light_Alphapose在实时性、准确性和轻量化水平上均优于原模型。 3. 针对实时视频场景下动作识别准确率低等问题，提出了一种基于 CTR-GCN 的改进图卷积网络模型。首先，在三个不同阶段对原 CTR-GCN 模型采用改进空间建模结构等方式来轻量化模型；其次，使用数据增强、衰减函数来改善图卷积的过拟合现象；然后，借助全连接层将实时动作时序特征进行分类识别；最后，在每个特征层分别引入 DropBlock，进一步提高了模型的拟合能力。实验结果表明，所提出的优化 CTR-GCN 模型在训练时的拟合能力更优，动作识别实时性和轻量化和优于原图卷积网络模型。 4.在本文研究成果基础上，设计实现了一个基于PyQt5框架的实时动作识别系统RARS，该系统包含三个流程模块：人物目标检测、骨架序列提取和动作识别，最终通过图形化界面显示，实现了人物动作实时分类识别功能。

关键词

实时动作识别/深度学习/YOLOv5s算法/轻量化模型/图卷积网络

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

王夏黎

学位年度

2023

学位授予单位

长安大学

语种

中文

中图分类号

段落导航