基于深度学习的多人姿态估计算法研究

陈雅鹏¹

扫码查看

作者信息

1. 山西大学
折叠

摘要

多人姿态估计一直是计算机视觉领域中的一项基础又具有挑战性的研究课题，其目标在于通过对图像或视频中的人物的精确分析，定位每个人的关键身体关节位置，并依据这些关键点构建出人体骨架信息，从而获得人体在二维或三维空间中的姿态特征。此项任务已被广泛的应用在众多实际应用中，涵盖了人机交互系统、虚拟现实技术、运动表现分析、动画与运动捕捉技术以及监控场景下的行人跟踪等多个方面。在多人姿态估计任务中，当前主要有两种主流方法：自顶向下(Top-Down)方法和自底向上(Bottom-Up)方法。这两种方法在问题解决机制上存在差异，并各自拥有优势和局限性。对于自顶向下方法，其首先在图像上检测每个人体实例，然后对检测到的每个实例进行姿态估计，该方法在处理多人姿态的场景时表现优异，能够有效避免多人之间的交互问题。然而，其难以准确预测人体被遮挡或部分可见的关键点，可能原因在于初始检测阶段无法获取完整的人体轮廓信息。而对于自底向上方法，该方法首先检测图像中的所有可能的关键点，然后通过关联关键点来构造人体姿态，这种方法在应对复杂遮挡和场景变化时通常更加稳健，但计算效率较低。因此，本文致力于解决这两种范式中固有限制，进行了以下改进：（1）提出了一种基于响应知识蒸馏的人体姿态估计算法。该算法可以结合了自顶向下和自底向上两种方法的优势。在训练过程中，它允许自底向上方法借鉴高性能自顶向下方法所输出的姿态信息，这既保持了自底向上方法高效的推理速度又提升了其准确性。在COCO数据集上的实验结果表明，本文所提出的方法不仅提高了自底向上方法的准确性，而且相较于传统的自顶向下方法，在准确率相当的情况下，本方法实现了更快的推理速度。（2）提出了一种融合骨骼损失机制的自蒸馏轻量级人体姿态估计模型。该模型通过在轻量级的 OpenPose 中引入骨骼损失函数对关键点之间的空间关系施加约束，这可以有效地调节了各个肢体长度的估计并学习肢体长度的相关规律，减少了不合理的姿态预测。此外，该模型还引入自蒸馏策略进一步提高了模型的准确性。在COCO数据集上进行的实验充分地验证了该方法的有效性，平均准确率提高了0.6%。（3）设计并实现了一个支持多人姿态估计的系统。该系统具备处理图像的能力，并为用户提供了可视化界面，用户能够在个人图像上直接执行人体姿态估计操作。

关键词

多人姿态估计/自顶向下方法/自底向上方法/知识蒸馏/骨骼损失机制

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

姬张建

学位年度

2024

学位授予单位

山西大学

语种

中文

中图分类号

段落导航