基于深度学习的人体动作质量评估方法研究

孟维庆¹

扫码查看

作者信息

1. 安徽大学
折叠

摘要

随着科技的进步，动作质量评估(ActionQualityAssessment,AQA)在计算机视觉领域中迅速发展。AQA旨在通过分析人体动作相关数据对动作的质量进行评分，例如竞技体育或康复动作，量化测试者的运动水平。现有的AQA方法对数据量较为敏感，并且在特征处理方式上存在不足。针对这些挑战，本文重新调整了评估问题的思路，分别基于骨骼点数据和图像数据构建模型来开展动作质量评估，具体研究内容如下: (1)提出了基于骨骼点数据的动作质量评估算法，为提高模型的准确率和鲁棒性，设计了三种新的数据增强方案，构建了基于残差模块的运动度量网络(ResidualMovementMetricNetwork,R2MN)区分错误动作，准确率高达98.5％。同时，设计了基于Transformer的评估模型，它充分利用了模型对原始数据的学习能力，提高了预测模型的性能，准确性超过基线方法。跨数据集性能提升方面，本文的模型相较于所比较的方法实现了进一步的性能提升，具备良好的准确性。 (2)提出了基于图像数据的动作质量评估算法，针对复杂场景特征提取任务，设计了基于非局部原理的膨胀卷积网络(Non-localInflated3DConvolutionNetwork,N3D),该网络可以进行全局上下文捕获和信息整合，在动作特征提取任务中表现出色。同时，构建了基于残差模块的编码器(ResidualEncoder,Res-Encoder),它对N3D提取的特征具有良好的表征能力。在实验中，该方法在AQA-7数据集上相较于先前研究的实现了不错的性能提升，平均Spearman相关系数提高了7.05％,并在MTL-AQA数据集上也取得了良好的性能表现，Spearman相关系数超过了基线模型，实验证明了该方法的有效性。总体而言，本文通过问题调整和针对性地模型设计，为动作质量评估提供了新的解决思路。基于骨骼点数据的R2MN评分算法和Transformer预测模型取得了一定的优势，而基于图像数据的N3D模型在全局上下文捕获和信息整合上具备较好的表现，Res-Encoder模型也表现出了良好的效果。本文为AQA领域的研究提供了思路和有效的解决方案。

关键词

人体动作质量评估/深度学习/注意力机制/残差网络

引用本文复制引用

授予学位

硕士

学科专业

新一代电子信息技术（含量子技术等）

导师

陈鹏

学位年度

2024

学位授予单位

安徽大学

语种

中文

中图分类号

段落导航