摘要
近年来,随着计算机性能的提升和深度学习的迅速发展,计算机视觉领域迎来了蓬勃发展。头部姿态估计作为基于生物特征的计算机视觉领域的一个分支,是众多学者的一个研究方向。头部姿态估计是指从二维人像图中推断出人在三维空间中的头部朝向的过程。这个课题在很多领域都具有广泛的应用场景,例如驾驶员监测系统、虚拟现实、安防监控系统、学生课堂注意力估计等等。 目前,头部姿态估计仍然面临着诸多挑战,例如精度较低、模型泛化能力不强。本文基于深度学习框架,从多个方面对头部姿态估计方法进行改进,提出了三种头部姿态估计算法,有效地提升模型的预测精度和泛化能力。本文的主要工作分为以下几个方面: 1、提出了一种抗混叠头部姿态估计模型,该模型减缓了传统卷积神经网络降采样中出现的混叠效应。该方法中的抗混叠卷积操作可以模拟低通滤波,有效地缓解特征提取网络中出现的混叠现象,使网络提取到的特征更加的准确,进而有效地提升头部姿态估计模型的预测精度。本文在多个头部姿态公开数据集上进行了对比实验,证明了该方法的有效性。 2、在抗混叠特征提取网络的基础上提出了一种基于多任务的头部姿态估计模型。该模型将人脸关键点检测作为头部姿态估计的辅助任务,通过联合优化两个损失函数来挖掘人脸关键点信息和头部姿态角的潜在联系,使网络学习到额外的信息来提高头部姿态估计任务的学习性能,进而提升头部姿态估计模型的预测精度。 3、在抗混叠特征提取网络的基础上提出了一种基于细粒度结构映射的软阶段回归头部姿态估计算法。该算法在采用抗混叠网络缓解特征提取各阶段降采样产生的混叠现象的同时,通过有效利用细粒度结构映射得到的多尺度特征信息,采用由粗到细的软阶段回归方法进一步提升了模型的预测精度和泛化能力。本文在多个公开数据集上进行对比实验,验证了该算法在模型的预测精度和泛化能力提升上的有效性。