摘要
近年来,3D数字人在教育、影视和游戏等领域展现出广阔的发展前景,其栩栩如生的虚拟形象和高度逼真的举止行为备受关注。在3D数字人的驱动过程中,语音驱动人脸表情作为关键环节之一,其核心在于建立语音特征与面部运动序列之间的映射关系,实现由语音信息生成对应的人脸表情。 语音特征映射出的面部运动序列主要分为两种,分别是基于Mesh顶点的高维序列和基于Blendshape的低维序列。前者控制全部Mesh顶点来驱动面部运动,可以精确表达面部运动细节,常用于离线渲染场景;后者则通过少数关键参数驱动人脸模型表达基本表情信息,常用于实时场景。近年来,深度学习在语音驱动人脸表情任务中获得了广泛应用;但仍面临两大挑战:一方面,语音信号与对应的面部运动序列之间存在跨模态对齐误差问题;另一方面,当前用于这一目的的深度学习模型架构通常较为复杂,导致在实际推理阶段计算资源消耗较高且时间成本增加的问题。 针对上述问题,本文开展了深度学习在语音驱动人脸表情中的应用研究,提出一种改进的Transformer模型用于解决跨模态对齐误差问题,以提高语音生成表情序列的精确度。此外,本文对LSTM模型进行改进,在确保语音生成表情动画质量的同时,较Transformer模型在推理阶段表现出更快的推理速度。主要工作如下: (1)提出一种改进的Transformer模型,以解决当前语音驱动人脸表情任务中Transformer模型存在的语音特征信息丢失、长序列泛化困难以及跨模态对齐误差问题。改进后的Transformer模型使用冻结的预训练语音模型Hubert作为编码器(Encoder)层进行语音特征提取,再通过周期偏置位置编码提高模型对未知长序列的泛化能力,最后引入时序损失函数Soft-DTW取代MSE函数作为模型的损失函数进行训练。实验结果表明,改进的Transformer模型对音频特征的提取能力更强,可以实现语音特征与人脸表情动画的帧级对齐,生成更加准确、真实的面部表情动画。 (2)提出一种满足实时响应需求的改进LSTM模型,以解决当前语音驱动人脸表情任务中Transformer模型推理时间成本高昂的问题。改进后的LSTM模型采用双向LSTM(BidirectionalLSTM,BiLSTM)解决LSTM模型因无法结合上下文依赖导致丢失信息细节的问题,同时添加注意力机制,提高模型对相邻帧信息的关注。实验结果表明,改进后的LSTM模型较Transformer模型更轻量,可以保证合成的人脸表情动画在具有真实性和流畅性的前提下,推理时间成本较Transformer模型进一步降低,满足在实时场景中的应用需求。