摘要
随着动作捕捉、全息会议、数字孪生以及元宇宙等新兴产业的崛起,作为基础技术的人体姿态跟踪也如雨后春笋般涌现。长期以来,垄断市场的解决方案以光学及IMU动捕系统为主,相对而言前者精度更高,是行业标准。传统光学动捕设备通常比较笨重,IMU穿戴调试则需专业人员指导,均很难应用于普通人群的工作生活。近年来,由于神经网络的兴起,基于单目光学相机的姿态跟踪算法也不断进步,但由于普通相机缺乏深度信息,深度估计误差极大,这迫使业界向RGBD方向尝试。 自2010年微软第一代深度相机Kinect1.0面市以来,基于RGBD的各类跟踪算法层出不穷,通常都先经过TSDF进行深度融合,然后采样出离散曲变场,再对数以千计的曲变场参数进行优化估计,这导致计算量非常浩大,算法流程也相当冗长复杂。由于融合表面缺乏语义表达,点对容易错配,较快运动将引起跟踪失败导致表面牵拉变形,甚至引起肢体与躯干脱离,并且跟踪一旦失败,将很难自主恢复。 本文介绍一种基于单目深度相机的实时人体姿态跟踪方法,通过引入SMPL人体先验模型,跳过融合算法,直接对点云进行匹配优化,进行三维人体姿态跟踪。本文主要工作如下: 1.针对以往融合算法计算量大且局部刚性难以保持的问题,我们采用SMPL模型替代曲变场对人体表面进行约束,并采用包络滤波提升点对匹配质量,有效提升了人体结构的稳定性,保证了姿态跟踪的连贯。 2.针对传统SMPL优化常常受困于无法精确估计体型参数,使优化精度难以提高的问题,我们设计了基于神经网络的T姿态自动检测方法以及分段优化方法来提升体型参数的估计精度,该方法也增强了系统从跟踪失败中实时恢复的能力,有效提升了系统可用性。 3.针对SMPL大规模点云非刚优化的性能瓶颈问题,我们自主设计了迭代次数弹性可变的高斯牛顿方法,相比于传统实现节省了约25%的时间,经过细致分析SMPL关节树,我们首创了骨架并行计算方法,将SMPL的LBS及求导速度翻倍。