深度学习在语音驱动人脸表情中的应用研究

王振凯¹

扫码查看

作者信息

1. 河北地质大学
折叠

摘要

近年来，3D数字人在教育、影视和游戏等领域展现出广阔的发展前景，其栩栩如生的虚拟形象和高度逼真的举止行为备受关注。在3D数字人的驱动过程中，语音驱动人脸表情作为关键环节之一，其核心在于建立语音特征与面部运动序列之间的映射关系，实现由语音信息生成对应的人脸表情。语音特征映射出的面部运动序列主要分为两种，分别是基于Mesh顶点的高维序列和基于Blendshape的低维序列。前者控制全部Mesh顶点来驱动面部运动，可以精确表达面部运动细节，常用于离线渲染场景；后者则通过少数关键参数驱动人脸模型表达基本表情信息，常用于实时场景。近年来，深度学习在语音驱动人脸表情任务中获得了广泛应用；但仍面临两大挑战：一方面，语音信号与对应的面部运动序列之间存在跨模态对齐误差问题；另一方面，当前用于这一目的的深度学习模型架构通常较为复杂，导致在实际推理阶段计算资源消耗较高且时间成本增加的问题。针对上述问题，本文开展了深度学习在语音驱动人脸表情中的应用研究，提出一种改进的Transformer模型用于解决跨模态对齐误差问题，以提高语音生成表情序列的精确度。此外，本文对LSTM模型进行改进，在确保语音生成表情动画质量的同时，较Transformer模型在推理阶段表现出更快的推理速度。主要工作如下：（1）提出一种改进的Transformer模型，以解决当前语音驱动人脸表情任务中Transformer模型存在的语音特征信息丢失、长序列泛化困难以及跨模态对齐误差问题。改进后的Transformer模型使用冻结的预训练语音模型Hubert作为编码器（Encoder）层进行语音特征提取，再通过周期偏置位置编码提高模型对未知长序列的泛化能力，最后引入时序损失函数Soft-DTW取代MSE函数作为模型的损失函数进行训练。实验结果表明，改进的Transformer模型对音频特征的提取能力更强，可以实现语音特征与人脸表情动画的帧级对齐，生成更加准确、真实的面部表情动画。（2）提出一种满足实时响应需求的改进LSTM模型，以解决当前语音驱动人脸表情任务中Transformer模型推理时间成本高昂的问题。改进后的LSTM模型采用双向LSTM（BidirectionalLSTM，BiLSTM）解决LSTM模型因无法结合上下文依赖导致丢失信息细节的问题，同时添加注意力机制，提高模型对相邻帧信息的关注。实验结果表明，改进后的LSTM模型较Transformer模型更轻量，可以保证合成的人脸表情动画在具有真实性和流畅性的前提下，推理时间成本较Transformer模型进一步降低，满足在实时场景中的应用需求。

关键词

语音驱动/人脸表情/深度学习/跨模态对齐/双向LSTM

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术;计算机软件与理论

导师

张翠军

学位年度

2024

学位授予单位

河北地质大学

语种

中文

中图分类号

段落导航