基于深度学习的二维人体姿态估计研究及应用

陈洪权¹

扫码查看

作者信息

1. 复旦大学
折叠

摘要

人体姿态估计(HumanPoseEstimation,HPE)是深度学习的重要应用之一，但在实际应用中仍面临诸多挑战。首先，现有的HPE模型通过不断加深网络模型提高准确率而忽视了推理效率和准确率之间的平衡，在资源受限的边缘端中往往无法投入使用;其次，复杂场景下HPE模型的准确性和鲁棒性会受到严重影响;此外，先前的研究工作侧重于改进单个模块，少有人从模型搭建、模型训练、后处理等环节对模型进行评估和优化。为了解决以上问题，本文基于深度学习对二维人体姿态估计进行了深入研究，从高精度网络设计、模型轻量化以及高效系统架构三个层面出发，最终设计了一个小体积、高精度、快推理、模块化的人体姿态打分纠正系统并将其应用于瑜伽动作评分纠正场景。首先，本文从模型构造层面对模型结构进行了轻量化设计，使用ResNet18和ResNet50分别作为骨架网络，同时结合转置卷积和空间特征融合增强模块构建核心模型，使用热图回归等定制化策略对模型进行了训练，并提出了RefineF人体骨骼关键点精度提高算法来进一步提高模型准确率，对比实验结果表明，所训练模型在准确率趋于上游水平(Transpose18:68.3％/Transpose50:72.1％)的同时模型复杂度更低，更具轻量化特征，使用RefineF算法更能够将模型精度提高约4％并为模型在复杂场景下提供更高的鲁棒性和稳定性。其次，本文基于训练后量化(PostTrainingQuantization，PTQ)对模型进行了压缩，为了更好地将Float32位模型量化到INT8,在传统的无符号对称量化算法的基础上使用了更为先进的K-L散度量化算法进行量化阈值截取，并在最后提出了基于余弦相似度监督的混合量化策略定位量化问题层，避免了量化带来的精度恶化，最终模型大小被压缩了4倍，推理速度相比于Float32位模型提升约3～4倍，精度损失在2％左右。最后，本文构建了一个完整的人体姿态估计系统，包括人体实例检测、人体姿态估计和人体姿态打分三个模块，并提出了更合理的削顶汉明窗函数用于平滑打分，对比实验结果表明该窗函数能够为打分提供更多的冗余性和合理性。根据实际应用需求，本文将上述系统部署于JetsonNano2GB中，并在瑜伽动作评分纠正场景中进行了实验验证，实验结果表明该系统能够以5.67img/s的速度实时跟踪并评分用户的瑜伽动作，并指出错误关节部位。本文的研究和设计工作在边缘端表现出的良好的性能也验证了本文研究的正确性和有效性。

关键词

人体姿态估计/深度学习/RefineF算法/模型轻量化

引用本文复制引用

授予学位

硕士

学科专业

通信工程

导师

郑立荣

学位年度

2023

学位授予单位

复旦大学

语种

中文

中图分类号

段落导航