摘要
运动捕捉(Motion Capture, MoCap)技术是利用外部设备来对人体结构的位移进行数据记录和姿态还原的技术。近年来,运动捕捉技术在电影动画制作、虚拟现实、机械控制等领域得到了广泛的应用。然而,获取运动捕捉数据非常困难,因为动作捕捉需要请演员进行专业的动作表演,专用的捕捉设备和场地,人力、物力成本很高。如今,运动捕捉技术已经发展了很长一段时间,人们已经存储了大量的运动捕捉数据,对于已经存在的巨量的运动捕捉数据来说,将其闲置的处理方法势必会造成资源的巨大浪费。如果我们可以从已经存在的运动捕捉数据中检索出满足我们需求的数据,一方面可以更快速直接的得到数据,提高效率。另一方面也可以避免对运动捕捉数据的重复采集,节约资源。因此,人体运动捕捉数据的检索对于管理和重利用运动捕捉数据具有重要的实际应用价值。 近些年,许多运动捕捉数据检索方法被提出,大致可以分为两大类:基于文本标签的方法和基于内容的方法。基于文本标签的方法需要大量的手工工作来注释数据库中的所有运动序列,耗费时间并且文本标签并不能完整的描述一个动作序列,也会增加附加文件难以管理。因此,本文重点关注基于内容的人体运动捕捉数据检索。基于内容的人体运动捕捉数据检索有利于重复利用已经采集并存储在数据库中的动作数据。 基于内容的运动捕捉数据检索算法按照查询数据模态的不同大致分为以下几类,例如运动捕捉数据,手绘草图数据,木偶运动数据,Kinect骨架运动数据和视频数据。基于运动捕捉数据的查询算法是主要的检索算法,因为查询数据与检索数据属于同类模态数据,因此有较高的准确度。但由于动捕数据较难获取,因此出现了其他不同模态的数据查询算法。在这些算法中,基于视频的查询方式表现出了特有优势:数据获取更为方便,自然,设备便宜且安装简单等。 因此,在本文中我们提出了一种有效的基于视频的人体运动捕捉数据检索方法。目前,基于视频的人体运动捕捉数据检索方法很少,这项工作的主要难点在于如何对3D人体运动捕捉数据和2D的视频帧序列这两种不同模态的数据进行有效的描述。本文提出了一种基于人体轮廓二值图的具有判别性的人体运动描述符。具体地,对于每一个运动捕捉数据动作序列和视频序列,我们首先计算其对应的人体轮廓二值图。对于人体运动捕捉数据序列,我们通过渲染人体模型投射到特定的视角方向获得每个动作捕捉数据帧的人体二值轮廓图像。对于视频数据,我们通过背景差分获得每个视频帧的人体二值轮廓图像。进一步,我们将提取的人体轮廓图像序列集合作为输入,放入卷积神经网络MotionSet中来提取其对应的代表性运动特征向量得到有效的运动描述符。最后,通过对提取的有效的运动描述符进行相似性度量的方式,进行人体运动捕捉数据的检索。 本文研究的重点在于提出了一种全新的跨模态人体运动捕捉数据检索算法。该算法的核心部分是提取具有判别性的交叉模态运动特征,其实现方法是将原始视频或动作捕捉片段转换为人体运动轮廓的二值图序列,通过MotionSet网络提取其代表性运动特征,然后利用最近邻的方式计算相似度得到最终的检索结果。实验表明,与基准算法相比,我们提出的算法在平均MAP上实现了0.25左右的提升。