摘要
随着人工智能和虚拟现实等相关技术的发展,数字人的制作过程得到不断简化、整体性能也获得了质的飞跃,逐渐渗透在影视制作、游戏开发、传媒娱乐、文旅以及金融等领域。为了进一步提升大众的感官和交互体验,数字人相关技术仍需不断迭代优化,其核心目标是实现高度拟人化,本文以其包含的特定身份、头部姿态和面部表情这三项基础特征作为切入点,面向与之对应的人脸融合和人脸驱动两个编辑任务来实现简单实用的2D数字人,其中前者旨在将源人脸中的身份迁移到目标人脸,同时目标人脸中身份无关的属性不发生改变,后者根据给定的多模态条件输入(图像、视频、语音、文本)来指示身份无关的属性并以此驱动源人脸,同时保持源人脸身份不变。得益于深度合成技术的不断成熟,人脸编辑任务已经取得了长足的进展。然而,面对用户日益增长的各种需求,现阶段技术从创作性能到应用落地的整个过程中还存在改进空间。一方面,人脸融合和人脸驱动皆围绕身份以及身份无关的属性(姿态和表情等)展开,提升性能表现的关键在于解耦身份相关信息与身份无关信息的表达,即改变身份的同时尽可能不影响身份无关特征的表达,反之亦然。另一方面,提升应用能力的关键在于设计一个通用的高质量模型,即满足自然场景下灵活性、可泛化性和便捷性等要求,并生成绝佳的视觉效果。针对上述挑战,本文从高保真2D数字人创作和应用时的具体难点出发,对以下四个方面进行创新性研究: (1)针对身份和属性解耦表达不充分的问题,本文提出基于多层次感知的人脸融合方法,其包含面部五官感知的局部分支和源身份增强的全局分支。前者对身份信息进行显式表征,并借助注意力机制自适应地进行身份信息增强和迁移,以此防止身份无关信息的干扰,提高身份相似性。后者进一步补充全局身份细节来全面表达源身份。此外,为了保持逆映射框架下生成人脸的身份无关信息,本研究提出无监督的身份相关区域弱掩码预测模块来指导初步换脸结果和目标人脸的和谐融合。 (2)针对身份和属性解耦表达不充分的问题,本文进一步提出身份和属性互促的人脸融合和人脸驱动,其包含一个不依赖于先验知识而在训练过程中动态解耦身份和属性的模块,由此保证解耦质量,同时避免引入复杂操作,以及一个充分建模解耦特征的身份和属性迁移模块,并根据两个任务的内部潜在关联对这两个核心模块进行串联结合,以此提高融合人脸的属性保持以及驱动人脸的身份一致性。 (3)针对通用高质量模型结构设计中的多条件通用子问题,本文提出基于多模态情绪空间的广义情绪化说话人脸生成,其包含一个基于CLIP设计的通用多模态情绪空间,不仅具有丰富的情绪语义,也能够将任意情绪模态映射到CLIP特征空间,从而实现灵活且通用的多情绪条件控制,以及一个情绪感知的音频内容转换器从多样化音频内容和情绪条件中预测准确的表情系数,此外一个改进的StyleGAN2结构集成了外观纹理、几何结构和风格样式,以逐阶段残差学习的方式来预测空间位移场并细化形变特征,确保能够驱动任意源人脸条件并合成高分辨率高保真结果。 (4)针对通用高质量模型结构设计中的多任务通用子问题,本文提出基于扩散模型的通用人脸编辑框架,其用扩散模型代替生成对抗网络来支撑更稳定的生成,并重构人脸融合和基于多模态条件的人脸驱动两个任务为面向重建范式的纹理和语义迁移方法,利用多条件扩散模型和交叉注意力机制来准确建模源和目标之间的表观联系并自适应实现迁移,凭借此统一框架来合成高保真融合和驱动人脸。 基于以上四点研究内容,本文进行了大量的定性和定量实验比较,证明了所提方法明显优于其他先进方法。同时还进行了充分的消融实验和可解释性实验,证明每个方法中精心设计的模块都是合理有效的,并且还给出了整体效率分析,全面评估了模型的性能提升与实现成本。