摘要
基于视觉的手部3D姿态估计及形状重建是实现人机交互的重要环节,在虚拟现实、智能机器人等领域具有广泛应用。近年来,深度学习和神经网络的迅猛发展为计算机视觉提供了强大的技术支持,涌现了大量优秀的基于视觉的手部姿态估计和形状重建方法。尽管这些方法已经取得了喜人的成绩,但RGB图像存在诸如背景复杂、深度信息缺乏等问题,导致姿态估计的精度及形状重建的效果仍有提升的空间。 针对以上问题,本文给出一种基于单张RGB图像的手部姿态估计及形状重建方法,具体研究内容可以概括为以下两个部分: (1)本文给出一种基于单张RGB图像的手部姿态估计方法。考虑到由RGB图像推断3D姿态是一个高度非线性的问题,因此本文采用两阶段法,即首先估计2D姿态,再将2D姿态提升到3D空间。由于手部RGB图像具有背景复杂、自遮挡严重等特点,因此利用具有强大图像表征能力的CNN搭建2D姿态估计模块,实现手部的2D关节点位置检测。针对二维图像缺乏深度信息问题,利用基于GCN的3D姿态提升模块充分挖掘手部的骨架结构和语义信息,缓解RGB图像固有的深度模糊和遮挡问题,实现2D姿态到3D姿态的映射。为了进一步提升姿态估计的准确度和合理性,设计了姿态结构鉴别模块,将手部的几何结构和运动约束嵌入在网络学习中,通过对抗生成的训练方式促使网络产生结构更加合理的手部姿态。 (2)仅有手部姿态并不足以实现完整的手部重建,本文在姿态估计的基础上给出一种基于GCN的弱监督手部表面网格重建方法。考虑到图像采集方式和场景的不同会导致不同数据集的图像间具有很大的差异性,而手部姿态不但与图像的背景、纹理等外观特征无关,在不同数据集中具有同质性,而且可以提供潜藏在表面网格下的关节位置信息,因此将手部姿态作为表面网格重建任务的初始输入,不失为一种好的选择。然而,稀疏的手部姿态和密集的手部网格间存在着较大的跨度,因此本文构建了MeshGCN网络,将稀疏的手部姿态由粗糙到精细,逐级恢复出密集的手部表面网格。另外,密集的手部表面网格标注难以获取,本文给出了一种弱监督的机制,为无表面网格标注的数据集提供约束,以实现有效的手部表面网格重建。 在几个公开数据集上的实验结果验证了本文手部姿态估计及表面网格重建方法的有效性,其性能与现阶段的诸多先进方法相当。