首页|基于深度学习的实时动作识别方法研究

基于深度学习的实时动作识别方法研究

武历展

基于深度学习的实时动作识别方法研究

武历展1
扫码查看

作者信息

  • 1. 长安大学
  • 折叠

摘要

近年来,随着计算机视觉领域的发展,基于深度学习的动作识别方法已逐渐应用到医疗监护、智能监控、运动分析等领域,是当前动作识别的主流方向和研究热点。然而,这些动作识别方法在实际应用中仍然存在实时性差、准确性低、鲁棒性弱等问题。基于此,本论文研究基于深度学习的实时动作识别方法具有一定的实际意义。论文着重对人物目标检测、骨架提取和姿态估计以及动作识别方法进行了研究,主要研究工作如下: 1. 针对现有人物目标检测模型存在的易漏检、鲁棒性和泛化能力差等问题,提出了一种基于改进YOLOv5s 的人物目标检测方法。首先,对Le2i数据集进行多种方式扩充,以增强训练模型的鲁棒性和泛化能力;其次,使用 MobileNetV3 作为主干网络来进行特征提取,以协调平衡模型的轻量化和准确性关系; 然后,利用 BiFPN 增强了模型多尺度特征的融合能力,并使用 CBAM 轻量级注意力机制,提升了模型的准确性;最后,引入Focal Loss 损失评估使模型更注重挖掘困难样本特征,改善了正负样本失衡的问题。实验结果表明,优化后的YOLOv5s模型,在精确度、F1分数、检测速度上均有所提升。 2. 针对骨架提取和姿态估计的实时性差的问题,提出了一种轻量化的优化模型Light_Alphapose。首先,将姿态估计模型 Alphapose 中的目标检测器替换为本文优化后的YOLOv5s,在确保准确性的同时,极大的提升了目标检测的实时性和模型轻量化水平;其次,通过采用轻量化的姿态估计平滑滤波器,改善了骨架序列处理时的抖动问题;最后通过实验验证,Light_Alphapose在实时性、准确性和轻量化水平上均优于原模型。 3. 针对实时视频场景下动作识别准确率低等问题,提出了一种基于 CTR-GCN 的改进图卷积网络模型。首先,在三个不同阶段对原 CTR-GCN 模型采用改进空间建模结构等方式来轻量化模型;其次,使用数据增强、衰减函数来改善图卷积的过拟合现象;然后,借助全连接层将实时动作时序特征进行分类识别;最后,在每个特征层分别引入 DropBlock,进一步提高了模型的拟合能力。实验结果表明,所提出的优化 CTR-GCN 模型在训练时的拟合能力更优,动作识别实时性和轻量化和优于原图卷积网络模型。 4.在本文研究成果基础上,设计实现了一个基于PyQt5框架的实时动作识别系统RARS,该系统包含三个流程模块:人物目标检测、骨架序列提取和动作识别,最终通过图形化界面显示,实现了人物动作实时分类识别功能。

关键词

实时动作识别/深度学习/YOLOv5s算法/轻量化模型/图卷积网络

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

王夏黎

学位年度

2023

学位授予单位

长安大学

语种

中文

中图分类号

TP
段落导航相关论文