基于深度学习的多视角3D人体姿态估计技术研究

周宇东¹

扫码查看

作者信息

1. 中国科学院大学
折叠

摘要

3D人体姿态估计，是指通过传感器输入对3D人体结构进行估计的过程。人体结构通常采用稀疏的3D人体关节点坐标或者稠密的人体网格模型进行表示。该技术在虚拟现实、视频监控、动作捕捉等多个领域都有广泛的应用。基于视觉的3D人体姿态估计方法因其设备价格低廉、数据易获取等特点，受到更多学者关注。近年来随着深度学习技术兴起，促使众多应用飞速发展，涌现出许多基于深度学习的3D人体姿态估计方法，但仍面临一些难点和挑战，如人体自身遮挡、复杂背景环境等问题。同时，深度学习方法通常需要大量的标注数据，而3D标注数据获取存在视角局限性，从而使模型训练更加困难。本文针对基于深度学习的多视角3D人体姿态估计技术展开相关研究，主要创新性成果如下: (1)提出了一种基于视角约束的多视角3D人体姿态估计方法，现有方法直接将多视角的2D姿态进行拼接后送入网络来学习3D姿态，但由于3D数据集视角数量较少且相对固定，以及网络训练过程中缺乏约束，使网络学习困难，并易出现过拟合。本文通过引入视角约束，在2D-to-3D阶段使用深度学习方法进行3D人体姿态估计。在Human3.6m数据集上的实验中，平均关节位置误差(MPJPE)降低为26.1mm，准确度提高了26.8％，并且网络训练不易过拟合。 (2)为进一步提高结果准确度，提出了一种基于通道感知与对极约束的多视角3D人体姿态估计方法，在2D人体姿态估计阶段利用对极约束和通道注意力机制融合多视角特征，提高了自遮挡情况下2D人体姿态估计的准确度，从而得到更准确的3D人体姿态。在Human3.6m数据集和TotalCapture数据集上的实验中，以256×256大小图像输入时，准确度分别提高了19％和15.1％。 (3)搭建了一套实时多视角3D人体姿态估计系统。基于TensorRT框架对模型进行加速，在使用GTX1080显卡处理四视角输入时达到每秒30帧速度，满足实时应用需求。

关键词

人体姿态估计/深度学习/特征融合/关节位置误差/注意力机制

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

高伟；胡占义

学位年度

2021

学位授予单位

中国科学院大学

语种

中文

中图分类号

段落导航