基于视频的人体姿态估计方法优化研究

王雁林¹

扫码查看

作者信息

1. 四川大学
折叠

摘要

近年来深度学习技术在人体姿态估计领域取得了突破性的进展。现有人体姿态估计方法中，基于多帧视频帧的姿态估计方法普遍比基于单帧图像的姿态估计方法在精度上效果更好，这是因为在处理当前帧时引入相邻帧作为辅助帧可以为当前帧姿态估计增加更多视觉补充信息。所以对基于视频的姿态估计方法进行研究具有一定的先进性。但是，目前基于视频的人体姿态估计任务仍面临一些挑战。一方面，现有方法在使用视频帧进行人体姿态估计时，没有充分考虑帧间人体的运动信息，视频相邻帧之间的信息没有被充分利用，导致姿态估计的精度受限，特别是处理由于运动或者相机失焦造成某些帧模糊的情况。另一方面，现有的基于视频的人体姿态估计方法中，精度较高的一类方法普遍存在计算量高，参数量大的问题，导致算法实时性较差，难以应用于实时场景。上述两个问题可以归结为姿态估计的精度和速度两个方面的问题。针对精度方面的问题，本文提出了基于特征对齐与运动残差学习的姿态估计网络FAMRL-Pose，并在PoseTrack2017和PoseTrack2018数据集上取得了优于以往视频姿态估计模型的精度。相比以往最先进的模型，FAMRL-Pose在PoseTrack2017验证集上将姿态估计精度（mAP）提升了0.5mAP，在PoseTrack2018验证集上将姿态估计精度提升了0.6mAP。在所提出的FAMRL-Pose方法中：（1）提出了运动残差融合模块（MRFM）。该模块将视频帧间的人体运动信息表征为视频相邻几帧经过骨干网络输出的特征金字塔在时间域上的差分——运动残差，利用调制可变形卷积和常规卷积模块对运动残差特征进行学习和融合，并将融合后的特征图作为关键点检测的辅助信息输入。运动残差融合模块在特征图级别有效利用了时间域上的运动信息，并且经实验验证，该模块对臀部关键点检测精度的提升最为明显。（2）提出了基于仿射变换参数学习的特征对齐全局变换（FATPL）。首先通过特征图估算辅助帧的特征图与关键帧的特征图对齐时的仿射变换参数矩阵初值以增加可解释性，然后用可学习参数矩阵组合最终的仿射变换参数矩阵以增强泛化性。在PoseTrack2017姿态估计数据集的实验验证中，所提出的FATPL方法比以往最先进的方法FAMI-Pose模型中用多层卷积模块估计仿射变换参数矩阵的方法对模型的精度贡献高0.2mAP，而参数量和计算量都降低了99%。针对速度方面的问题，本文对FAMRL-Pose网络进行了一系列轻量化处理，提出了基于特征对齐与运动残差学习的轻量高效姿态估计网络Lite-FAMRL网络。相比于以往最先进的FAMI-Pose、DCPose以及本文的FAMRL-Pose等方法，Lite-FAMRL在参数量和计算量上都降低到上述模型的十分之一左右，而精度指标也只降低了十分之一左右，在模型的计算量和精度之间达到了较好的平衡，达到了轻量高效的设计目标。该方法中：（1）提出了基于ShuffleAttention的运动残差融合模块（MRFSA），引入ShuffleAttention来计算运动残差特征。相比于FAMRL-Pose的MRFM，MRFSA模块的计算量降低了10.5%，并且在使用轻量骨干网络LiteHRNet的时候，MRFSA模块带来的姿态估计精度提升比MRFM高0.2到0.4mAP。（2）提出了轻量化的特征对齐局部校准模块（Lite-LCM），在Lite-LCM中，对DCNv2进行了轻量化改进，用ShuffleAttention与1?1卷积替代原DCNv2中的常规3?3卷积模块。改进后的调制可变形卷积比原DCNv2计算量减少了30.6%，参数量减少了30.9%。消融实验证明，Lite-LCM模块用0.6GFLOPs的代价换来了模型姿态估计精度0.5到0.7mAP的提升。

关键词

人体姿态估计/特征对齐/运动残差/轻量级网络/深度学习

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

李征/张元忠

学位年度

2023

学位授予单位

四川大学

语种

中文

中图分类号

段落导航