摘要
人脸特征点检测又称人脸对齐,其目的是检测一组预先定义在人脸轮廓、五官等部位的特征点位置坐标。一些人脸相关的任务通过人脸面部分析,可以得到人的身份、表情、性别等有用信息。然而提取人脸的面部信息依赖于人脸特征点位置所提供的面部形状信息,因此人脸特征点检测技术是处理人脸相关任务的关键步骤。目前大多采用基于深度学习的方法实现人脸特征点检测,但是在诸如面部遮挡、表情夸张、姿态偏转等极端情况下,检测效果会受到极大影响。因此,本论文主要研究基于注意力机制的人脸特征点检测方法,提升检测精度,并研究将人脸特征点检测方法应用于3D人脸重构。 首先,本论文使用基于热力图回归的堆叠沙漏网络(StackedHourglassNetwork,SHN)作为基础模型。受注意力机制的启发,本论文通过引入瓶颈混合注意力模块(BottleneckMixedAttentionBlock,BMAB),提出了基于混合注意力的堆叠沙漏网络(BMAB-SHN)。BMAB模块分别从空间维度与通道维度建立了注意力分支对特征信息进行处理,为人脸特征点的关键区域赋予更大权重,最后进行特征信息融合,实现对关键特征信息的提取,抑制噪声信息。由于BMAB模块的引入,BMAB-SHN模型仅需要使用两级堆叠沙漏网络进行构建,参数量相对更少,且实现了高精准的特征点检测。 考虑到人脸特征点之间具有内在的联系,受图卷积网络(GraphConvolutionalNetwork,GCN)启发,将人脸特征点视为图节点,人脸特征点之间的内在联系作为图关系结构,本论文提出了图卷积堆叠沙漏网络(GraphConvolutionalStackedHourglassNetwork,GCSHN)。在GCSHN中,图卷积沙漏模块(GraphConvolutionalHourglassBlock,GCHB)提取多尺度特征来学习人脸特征点之间的关系,利用已知特征点为被遮挡特征点的预测提供位置信息。随后将其输出作为瓶颈变压器残差模块(BottleneckTransformerResidual,BOT-Residual)的位置信息输入到多头自注意力(Muti-HeadSelf-Attention,MHSA)层中,为主干网络SHN的预测结果提供位置佐证。GCSHN结合热力图回归方法与图卷积方法的优势,实现了更高性能的人脸特征点检测。 最后,为了验证人脸特征点检测在人脸相关任务中的重要性,本论文研究了3D人脸重构的问题。本论文采用体素回归网络(VolumetricRegressionNetwork,VRN)作为基础模型,利用本论文所提出的人脸特征点检测方法对VRN的人脸特征点检测模型和3D人脸重构模型进行优化,提出了基于混合注意力的体素回归网络(VRN-BMAB),实现了从2D人脸图像中构建3D人脸形状。 本论文在三个公开数据集COFW、300W、WFLW上对BMAB-SHN、GCSHN进行测试评估,并对BMAB、GCHB以及BOT-Residual模块进行了消融实验。相比一些已有的方法,本论文提出的两个模型在三个数据集上均取得了不错的效果。其中,在300W数据集上,BMAB-SHN、GCSHN的归一化平均误差(NormalizedMeanError,NME)分别降至3.17%、3.15%。同时,实验结果也验证了人脸特征点检测在3D人脸重构中的重要作用,VRN-BMAB可以有效提高3D人脸重构的准确度。