首页|基于深度学习的面部表情识别研究

基于深度学习的面部表情识别研究

颜焕

基于深度学习的面部表情识别研究

颜焕1
扫码查看

作者信息

  • 1. 合肥工业大学
  • 折叠

摘要

面部表情可以很好地反映人类的情感和意图。由于在诸多领域的广泛应用,例如疲劳驾驶监测、心理诊断和教育辅助等,面部表情识别已成为了计算机视觉领域中的热点研究方向。虽然一些最新的研究技术在面部表情识别研究中取得了广泛的成功,但依然面临着诸多困难与挑战。首先,已有的面部表情识别方法主要是通过改善深度网络结构来提取关键面部表情特征,这忽略了人类情感认知模式的先验知识。其次,已有的面部表情识别方法依赖于人类注释的表情标签是真实可靠的假设。但在实际场景中,由于面部表情模糊、面部图像质量不高以及标注者的主观性等因素会导致数据集中存在不确定性问题。最后,2D+3D面部表情识别方法常常利用特征级或分数级融合策略来预测最终结果,因此会导致大量的计算时间和内存消耗,并且难以获取到紧凑且信息丰富的面部表情特征。这些问题给已有的面部表情识别方法带来了极大的挑战。 本文基于深度学习,针对当前研究忽略人类情感认知模式的先验知识和面部表情数据集存在的不确定性问题,以及2D+3D面部表情识别方法需要大量的计算时间和内存消耗等问题开展了面部表情识别研究,主要研究内容和创新成果如下: 基于情感认知分层网络的2D面部表情识别。针对当前面部表情识别研究忽略了人类情感认知模式的先验知识的问题,提出了一种简单且有效的情感认知分层网络。首先,该方法根据人类的情感认知模式将面部表情识别分解为两个相关的且易解决的子任务:i)与态度分析相关的粗分类和ii)与情绪解释相关的细分类,并通过构建的多分支深度网络框架来联合解决。其中划分子任务的关键思想是基于离散的通用面部表情类别在连续的唤醒-效价(Valence-Arousal,VA)情感空间中的经验投影来反映态度倾向。其次,提出了一种同步机制,通过混合粗分支特征和细分支特征来控制学习过程,其首要目的是通过引入有噪声的粗特征来减缓细分支的学习进度,另一个目的是在粗分支和细分支之间进行特征交换。最后,设计了一种新颖的中心损失,以增强网络在提取紧凑的类内表示时的辨别能力,同时保持固有的类间关系。该方法在构建统一的深度学习框架中引入人类情感认知模式的先验知识,实现了比其他面部表情识别方法更好性能的同时也保证了较强的泛化能力。 基于噪声容忍网络的2D面部表情识别。针对面部表情模糊、面部图像质量不高以及标注者的主观性等因素导致野外面部表情数据集存在的不确定性问题,提出了一种简单且有效的面部表情容噪网络,它通过探索类间相关性以减轻通常在形态相似的类之间发生的不确定性问题。首先,利用多元正态分布在神经网络的最终隐藏层上对类相关性进行建模,以抑制由类间标签噪声引起的异方差不确定性。其次,针对表情之间的细微差异和特征噪声的存在,深层特征的判别能力被削弱的问题,该方法利用特征噪声缓解模块提取紧凑的类内特征表示,同时保留内在的类间关系。最后,该方法使用二阶泰勒级数对对数似然进行近似,讨论了协方差矩阵在建模标签噪声中对对数似然的影响,理论分析了该方法的有效性。该方法在统一的模型中同时解决了野外面部表情数据集中存在的均匀噪声和异方差噪声问题。 基于多通道数据融合网络的2D+3D面部表情识别。2D+3D面部表情识别方法常常利用特征级或分数级融合策略来预测最终结果,因此会导致大量的计算时间和内存消耗,并且难以获取到紧凑且信息丰富的面部表情特征。针对上述问题,提出了一种基于注意力机制的多通道数据融合网络。首先,该方法利用3D人脸预处理和2D面部属性图像生成模块将3D面部扫描映射成八张2D面部属性图像。其次,设计了多通道数据融合模块,它从通道维度融合八种2D面部属性图像,并将其输入到ResNet-18主干网络中以获得层级情感特征。最后,设计了层级注意力模型来探索不同层级特征之间的依赖关系,学习有区别性的情感信息以进行有效的情感识别。该方法相比于利用特征级或分数级融合策略的方法来说减少了计算时间和内存消耗,并提高了面部表情识别的性能。

关键词

面部表情识别/深度学习/情感认知模式/多通道数据融合

引用本文复制引用

授予学位

博士

学科专业

计算机科学与技术

导师

汪萌/谷雨

学位年度

2023

学位授予单位

合肥工业大学

语种

中文

中图分类号

TP
段落导航相关论文