摘要
尽管人脸识别方法和应用有了很大发展,但在面对复杂多变的监控环境时,视频画面中的人脸由于受到拍摄角度、光线变化、遮挡等影响,识别的准确性仍有待提高。其中一个影响因素是,现有方法通常孤立地处理单张抓拍人脸图像的信息,并没有充分利用人脸三维结构的空间冗余内在特性和视频人脸的时间冗余关联信息。因此本文提出三维对视频的人脸识别,即使用人脸三维模型模拟视频场景并训练模型。近年来,随着Vision Transformer(ViT)的兴起,人脸识别领域迎来了新的可能性,卷积操作重点关注局部特征,影响模型对图像全局信息的捕获,ViT与传统的基于卷积的方法不同,能够更好地处理长距离的特征依赖关系。ViT在图像处理任务中取得了显著的突破,也为人脸识别带来了新的机遇。为了更好的处理视频中可能出现的不确定数量的多角度人脸,本文通过掩码自监督学习可以对三维人脸和视频人脸体现的个人身份特征进行更好的融合表示,从而实现更好的识别性能。提出的方法如下: (1)传统的神经网络方法在提取特征时,通常采用卷积层来捕捉局部特征,但在处理多角度和姿态变化的多张人脸时,这种方法无法学习不同图片之间的关联。相比之下,ViT通过自注意力机制,能够在多个特征图上建立全局的特征关联,从而更好地捕捉到人脸的全局特征和上下文信息,这使得ViT在处理多角度和姿态变化的人脸时表现出更好的鲁棒性和泛化能力,因此本文提出了一种基于掩码的人脸特征表示方法Multi-Angle Masked Encoder(MAME),将卷积神经网络和多视角信息融合编码器相结合,充分发挥其优势,首先通过卷积神经网络提取图片的特征,随后再将特征信息送入多视角信息融合编码器,采用掩码和自监督的方法让模型学习多张人脸之间的依赖关系。为了更好的模拟视频中多角度的姿态信息,本文利用人脸三维模型数据进行训练,提高模型识别的准确率。 (2)在传统的ViT模型中,为了引入空间位置的概念,通常会使用位置编码来结合图像信息。本文中提出了一种全新的方法,采用人脸姿态感知作为引导,即Pose-aware Multi-Angle Masked Encoder(PA-MAME),通过将人脸的角度特征与图像特征进行拼接的方式,取代了传统的位置编码,将人脸的角度特征融入到编码器中,为模型提供了更具有语义意义的位置编码。这种创新的方法允许模型学习到不同角度之间的权重大小,从而更好地理解不同姿势下的人脸特征。这种融合的方法使得模型能够更全面地表达人脸特征,不再局限于特定角度或姿势下的信息,通过学习不同角度之间的权重大小,模型可以更好地适应不同姿势下的人脸,提高了模型在处理具有不同角度和姿势的人脸时的性能和鲁棒性。