摘要
人脸属性识别研究最近两年成为计算机视觉领域研究的热点之一,它旨在提取静态图片或者视频中人脸图像的一系列属性。而现有的人脸属性识别模型容易被数据中存在的遮挡、模糊等因素干扰,也容易忽略小尺度属性的信息。因为这些模型没有很好的鲁棒性,且没有考虑属性间固有的联系和属性特征间的全局联系。同时,随着Transformer网络的发展,Transformer网络相比卷积网络更容易获得全局的特征联系,也更容易将属性的特征联系起来。因此本文针对这些问题,将Transformer网络应用于人脸属性识别的研究。具体研究内容如下: 针对小尺度属性信息容易丢失的问题和数据中模糊、遮挡等噪声因素干扰的问题。本文提出的基于不确定性估计语义学习的人脸属性识别模型构建了结构和语义的双重关系,即在不同尺度特征上建立位置上的增强关系,同时动态的学习图像中的语义联系。网络首先使用Transformer框架学习属性在全局上的空间关系,然后再运用图卷积网络在具有全局空间关系的属性特征上学习语义关联性。最后使用了不确定性估计的方法,将点估计变为分布的估计,以减少背景等噪声因素的影响,进一步强化特征。在标准数据集中,这个方法的实验验证了其有效性,且较于其他算法有优异的表现。 为了进一步提升人脸属性识别模型对不同尺度属性识别的准确率。本文提出了一个基于先验引导多尺度Transformer网络的人脸属性识别模型。主要在Transformer的网络上改进,提取不同尺度的特征,并进行动态特征融合。在网络相邻两层特征之间设计了一个动态特征选择器,这可以将低层的细节信息和高层的语义信息进行融合,以提高不同尺度的人脸属性识别的准确率。此外还加入了属性的先验信息,从谷歌语料库中提取属性标签文本的先验信息,然后使用图卷积网络学习属性特征间的相关性,再将先验信息映射到图像特征中以引导网络学习。实验验证了所提出的方法比近年的方法更有优势,而且所提出的框架对人脸属性的识别更有效。