基于单目相机的3D人体姿态估计研究

陈旭¹

扫码查看

作者信息

1. 北方工业大学
折叠

摘要

基于单目相机的3D人体姿态估计在降低使用成本，拓展使用应用场景等方面具有极高实际应用价值。目前主流的单目3D人体姿态估计使用两阶段法，第一个阶段通过2D人体姿态估计获得2D人体关节点坐标，但精度受限。第二个阶段使用3D人体姿态估计网络回归3D人体关节点坐标，但深度信息仍然模棱两可。针对第一个阶段的问题提出基于卡尔曼滤波的轨迹修正算法弥补精度问题，针对第二个阶段的问题提出了基于人体拓扑运动树结构的 2D-3D 网络改善深度信息来减少误差，通过提出的两阶段改良方式实现了更加精确的单目3D人体姿态估计，具有重要研究意义。本文的主要工作与创新性如下： (1)设计了基于卡尔曼滤波的2D人体姿态跟踪修正算法。为了克服2D人体估计在遮挡问题关键点丢失的问题，采用一套跟踪算法，若当前点坐标与卡尔曼预测值相同，使用2D人体姿态估计的结果，若当前坐标丢失或与当前卡尔曼预测值差距过大，则使用卡尔曼滤波的预测点取代原检测结果进行跟踪，通过这种算法设计能较大程度改进 2D 姿态估计的检测结果，同时作为第二阶段的输入，提供了更加可靠的2D人体关键点坐标。 (2)基于人体运动树结构提出了基于空间增强的特征融合网络。为了抵抗全局运动（比如相机平移）的干扰，解决网络的输入和输出端由于分布不同引起的网络学习能力下降问题，通过对输入端的位置信息采用空间增强算法，实验结果表明相比于基准线误差减少了0.7mm，基于时间卷积结构提出了基于时间增强的特征融合网络，为了解决局部运动变化的性能降级，提出时间增强算法，对当前姿态和其他姿态描述驱动网络学习其他姿态对当前姿态的影响，回归更加精确的3D人体姿态坐标。实验结果表明相比于基准线误差减少了1mm。 (3)基于网络的一体化优化策略，在使用空间增强和时间增强的算法基础上，充分利用人体分组内的信息交换和分组间的信息依赖关系，对特征融合网络的编码器，解码器和特征融合模块分三个阶段分别进行优化。前两个阶段对编码和融合独立优化使得每一组能够独立提取与姿态相关的时间信息和空间信息，共享小组之间的联系，最终通过第三个阶段微调完成网络一体化，实验结果表明相比于基准线误差减少了4mm。

关键词

三维人体姿态估计/单目相机/卡尔曼滤波/空间增强/时间增强

引用本文复制引用

授予学位

硕士

学科专业

信息与通信工程

导师

王一丁

学位年度

2023

学位授予单位

北方工业大学

语种

中文

中图分类号

段落导航