摘要
三维人体姿态估计具有很大的应用前景与研究价值,是计算机视觉领域中热门的研究方向。随着深度学习与计算设备的发展,已经涌现出许多优秀的人体姿态估计方法,但仍存在很多问题亟待解决,例如基于模板的方法受限于先验约束,三维人体姿态估计数据集不充分、不全面,不同场景下模型的精度和泛化性不强等。针对这些问题,本文展开了深入研究,基于深度学习技术提出了一些新方法来提高模型的精度与通用性,主要的工作与创新点如下: 1) 针对基于模型的方法受限于先验约束的问题,提出了基于并行时空分支网络辅助的方法。本方法以并行网络结构为基础,将主流的SMPL参数化模型网络作为一个分支,设计并添加一个并行的新时空分支网络,利用Transformer模块融合时间与空间两个维度的信息,在不使用模板的前提下预测三维人体关键点,然后将该关键点信息融合到SMPL网络分支来反馈、矫正网络训练的参数更新。最终,在测试数据集上与实际场景中分别验证了本方法的有效性,尤其当视频中人体运动激烈、动作复杂度高时,网络结果得到较大改善。 2) 针对三维数据集不足、模型精度与泛化性不高的问题,本文提出了融合自监督在线训练与相机参数估计的三维人体姿态估计与人体重建方法。通过自监督学习的编码器提取图片域特征添加网络训练时的监督约束,充分应用二维图像的特征信息,弥补三维数据集欠缺的不足;使用高精度教师模型指导模型测试应用时的在线训练,提高网络的泛化性。测试实验证明,相较于当前先进的基准模型,该方法在3DPW数据上误差降低25.3%。 3) 针对自顶向下的多人姿态估计方法中相机估计参数导致的误差问题,提出了一种融合目标检测结果进行修正的方法。通过建立目标检测结果框与图像整体的坐标关系模型,使得预测结果更加准确。最终,整合系统流程,实现了本文方法的实际应用,在户外实际场景中,证明本文方法效果良好。