摘要
人脸重现是深度人脸伪造(DeepFake)的一种,旨在将人脸表情从一个驱动人脸迁移到源人脸并生成转化后的目标人脸,同时保持目标人脸的身份和属性不变。本文主要集中于改进现有人脸重现方法,从现有人脸重现工作的不足和缺陷入手,结合多种驱动模态和面部动作表示,构建了高保真的人脸重现框架。并在多个公开数据集上验证了算法的可行性和有效性,主要研究内容为: 1)本文提出了一种高保真的人脸重现框架。针对现有方法表情指引信息较为单一导致容易出现身份泄露和生成图像质量不高的问题,提出了一种融合面部关键点和动作单元的人脸重现方法。该方法使用一个关键点转换模块来对关键点信息进行对齐,然后使用一个人脸重现网络在动作信息的指引下生成重现人脸,并利用一个自适应动作控制器(AMC)模块插入动作特征,使重现过程能更好地保持语义特征。同时结合背景分离技术,使用单独的背景融合模块来合成背景,从而进一步提高了生成人脸的真实性,实现高保真的人脸重现。 2)本文提出一种新的基于音频驱动的人脸重现方法。该方法针对现有的音频驱动人脸重现方法只能重现特定人脸或无法准确还原面部表情的问题,通过结合动作单元和面部深度信息作为辅助信号实现了真实的人脸重现。该方法包括多模态信号融合模块,自监督深度估计模块和深度感知人脸生成模块三个子模块。其中多模态信号融合模块用于融合音频信号和作为辅助信号的动作单元信号,该模块将两种信号融合并提取出人脸几何特征。自监督深度估计模块用于预测人脸图像的深度信息,该深度信息在后续生成人脸时将作为额外的约束条件以提高生成质量。最后,深度感知人脸生成模块根据参考人脸的图像以及前两个模块提取出的几何特征和面部深度特征,生成与输入信号相匹配的人脸。 3)本文设计并实现了一个人脸重现数据生成与管理系统,该系统涵盖了本文提出的两种基于不同模态驱动的人脸重现方法,并能对生成的伪造数据进行统一和有效的管理。