摘要
3D人体姿态估计,是指通过传感器输入对3D人体结构进行估计的过程。人体结构通常采用稀疏的3D人体关节点坐标或者稠密的人体网格模型进行表示。该技术在虚拟现实、视频监控、动作捕捉等多个领域都有广泛的应用。基于视觉的3D人体姿态估计方法因其设备价格低廉、数据易获取等特点,受到更多学者关注。近年来随着深度学习技术兴起,促使众多应用飞速发展,涌现出许多基于深度学习的3D人体姿态估计方法,但仍面临一些难点和挑战,如人体自身遮挡、复杂背景环境等问题。同时,深度学习方法通常需要大量的标注数据,而3D标注数据获取存在视角局限性,从而使模型训练更加困难。 本文针对基于深度学习的多视角3D人体姿态估计技术展开相关研究,主要创新性成果如下: (1)提出了一种基于视角约束的多视角3D人体姿态估计方法,现有方法直接将多视角的2D姿态进行拼接后送入网络来学习3D姿态,但由于3D数据集视角数量较少且相对固定,以及网络训练过程中缺乏约束,使网络学习困难,并易出现过拟合。本文通过引入视角约束,在2D-to-3D阶段使用深度学习方法进行3D人体姿态估计。在Human3.6m数据集上的实验中,平均关节位置误差(MPJPE)降低为26.1mm,准确度提高了26.8%,并且网络训练不易过拟合。 (2)为进一步提高结果准确度,提出了一种基于通道感知与对极约束的多视角3D人体姿态估计方法,在2D人体姿态估计阶段利用对极约束和通道注意力机制融合多视角特征,提高了自遮挡情况下2D人体姿态估计的准确度,从而得到更准确的3D人体姿态。在Human3.6m数据集和TotalCapture数据集上的实验中,以256×256大小图像输入时,准确度分别提高了19%和15.1%。 (3)搭建了一套实时多视角3D人体姿态估计系统。基于TensorRT框架对模型进行加速,在使用GTX1080显卡处理四视角输入时达到每秒30帧速度,满足实时应用需求。