基于深度学习的二维人体强交互姿态估计

蒋逸飞¹

扫码查看

作者信息

1. 南京邮电大学
折叠

摘要

作为近年来计算机视觉领域中重要的分支，人体姿态估计问题一直以来受到众多研究者的广泛关注。同时在诸如自动驾驶、医学治疗、虚拟现实与人机交互、体育运动分析等诸多现实应用领域中，人体姿态估计技术都有着广泛地应用。但是针对复杂多人强交互场景时，人体姿态估计网络往往会产生对遮挡部分的关键点估计不够准确、对多尺度人体的姿态估计结果欠佳以及缺乏合适数据集等问题。本文重点研究基于深度学习方法的应用于多人强交互场景的人体姿态估计算法，在分析多人交互场景的特点的基础上，具体从多尺度人体的姿态估计以及遮挡部分关键点的预测出发选取合适的姿态估计网络结构，并将基于多人强交互场景的数据集Interact-Pose应用于多人强交互人体姿态估计算法性能的提升。本文的主要工作分为如下几个方面：（1）针对多人强交互场景中存在的大量多尺度人体的问题，本文提出了一种多分辨率表征模块的网络来解决该问题。该模块通过将多分辨率表征串行模块以及多分辨率表征并行模块两个子模块进行组合，融合两大子模块对人体关键点预测热力图的结果，并通过关联嵌入以及反卷积操作得到不同人体的关键点及其连接的输出结果。在MSCOCO2017和CrowdPose两大公开数据集上进行了大量的针对其他算法的对比实验以及针对多分辨率表征模块中的不同子模块的消融实验。实验结果表明，本文所提出的多分辨率表征模块针对多人强交互场景下的人体姿态估计结果有着改善效果，同时针对多尺度人体的检测精度也有着显著的提升。（2）针对多人强交互场景中广泛存在的大量的人体关键点遮挡问题（其中包含同一个人直接的自遮挡以及不同人体之间的互相遮挡），本文提出了基于注意力机制的人体姿态估计结构。其中注意力机制模块包含通道注意力子模块以及空间注意力子模块，前者实现对不同关键点的关联度的辨识，后者则提升了网络的全局上下文的性能。通过两个对两个子模块所生成的特征图像的融合从而输出得到更加准确的关键点预测图像，并将注意力模块所输出图像放入多分辨率并行模块中进行卷积操作而得到最终的关键点预测结果。实验结果表明，本文所提出的基于注意力机制模块的人体姿态估计算法可以有效地处理多人强交互场景下的人体姿态估计问题，并在不同数据集上有着优于当前先进人体姿态估计算法的表现。（3）针对多人强交互场景中广泛存在的人体关键点遮挡问题，当前常用的公开数据集（如MSCOCO、CrowdPose等）中缺乏足量的符合人体动作要求以及场景要求的数据。而缺乏符合条件的训练数据的算法难以通过公开数据集训练出在多人交互场景中可以表现良好的模型。本文以实验室多视角采集系统为依托，采集出一组包含拳击、摔跤等真实动作且符合多人强交互场景研究要求的数据，而后通过数据增强的方案丰富原始数据的背景，最后按照公开数据集的标注格式对其进行人体关键点标注。无论是在本文所提出的人体姿态估计算法上还是在当前其他先进算法上的实验均表明，Interact-Pose数据集可以有效提高算法在多人强交互场景中的人体姿态估计检测精度。

关键词

人体姿态估计/多人交互场景/深度学习/注意力机制/多分辨率模块

引用本文复制引用

授予学位

硕士

学科专业

控制工程

导师

高浩

学位年度

2023

学位授予单位

南京邮电大学

语种

中文

中图分类号

段落导航