摘要
面向演艺场景的多人姿态估计系统拟解决的问题是主持人及表演者的实时状态检测,结合多种形态演艺节目的导播切换思路,实现新媒体领域多种节目的智能导播,具有重要研究意义和应用价值。本文选取基于Transformers的端到端多人姿态估计模型进行研究与应用,减少了节目的制作周期和成本,并且提高了制作效率和质量,达到节目自动制作或者辅助制作的效果。本文主要的工作如下: (1)针对演艺场景的遮挡问题制作了2000张遮挡类型训练集图像。将PETR和H-PETR进行实验验证,在COCO和OCHuman数据集上的测试结果表明,PETR和H-PETR模型的精度超越了目前自底向上模型,并且使用增加了遮挡图像的数据集进行训练后,对遮挡人体的姿态预测精度有了明显提升,速度和精度达到了平衡,使得模型更符合演艺场景的使用。 (2)结合PETR模型进行演艺动作识别。制作了包含唱歌,演奏以及正常动作的演艺动作数据集。PETR模型与基于RepVGG的动作识别模型进行结合。在演艺动作数据集上进行实验测试,模型准确率达到了92%,能较好的实现演艺场景的动作分类。 (3)本文提出了舞蹈动作幅度检测算法。将PETR模型的姿态估计结果应用于舞蹈动作幅度分析方向。理论地描述四个舞蹈动作幅度判别条件。通过实验数据分析,确认判别条件的相关阈值。在多种类别舞蹈图像测试中,算法准确率超过86%。在智能导播系统中,可检测舞者精彩的表演镜头,实现镜头切换。