摘要
面部表情识别(FacialExpressionRecognition,FER)作为情感计算领域的一个重要的研究方向,近年来其研究方向从对静态实验室表情图像的识别,转变为对静态自然场景表情图像的识别。此外为了更适应社会化的需求,对动态自然场景的表情识别研究也成为一个新的热点。自然场景下的静态表情识别主要受到遮挡和姿态变化等环境因素的影响,从而导致面部图像采集具有不完整性和多变性,因此,自然场景下的静态表情识别研究成为该研究方向的一个难点。另外,由于时序上下文信息难以衡量,动态自然场景表情识别研究主要解决如何捕捉有效的时序信息和空间信息的问题。为提升现有静态表情和动态表情识别性能,本文将注意力机制和多特征融合作为主要研究方法,从而减少非注意特征和单一特征对网络表征能力的约束,以此提高表情识别网络的鲁棒性和适用性。本文主要进行以下研究工作: (1)为抑制遮挡和姿态变化等自然场景因素对表情识别的影响,提出融合全局增强-局部注意特征(FusionofGlobalEnhancementandLocalAttentionFeatures,GE-LA)的表情识别网络。该网络主要由全局特征增强分支、局部特征注意分支和自适应融合模块组成。在全局特征增强分支,构建通道-空间全局特征增强结构,从通道流和空间流两个角度获取全局上下文的增强语义;在局部特征注意分支,对高效通道注意力(EfficientChannelAttention,ECA)机制进行改进,提出通道-空间注意力(ChannelSpatialAttention,CSA)机制,从通道和空间两个维度提取局部注意特征;在自适应融合模块,设计自适应策略实现全局增强语义和局部注意特征的加权融合,并基于自适应融合特征实现表情分类。在RAF-DB和FERPlus两个自然场景下的静态人脸表情数据集上的实验结果表明:提出网络的表情识别率分别为89.82%和89.93%,比基线网络ResNet50分别提高了13.39%和10.62%。不同网络性能比较实验表明:与相关方法相比,提出方法降低了遮挡、姿态变化的影响,在自然场景下具有较好的表情识别效果。 (2)针对基于单一尺度帧级特征的动态表情网络难以捕获多层次、多尺度的时空上下文语义的问题,本文提出融合多尺度时空语义的协同注意(CollaborativeAttentionwithMulti-scaleSpatiotemporalSemantics,CA-MST)表情识别网络,该网络主要由特征提取模块、多尺度时空协同子网和片段交叉注意子网组成。在特征提取模块,通过3DResNet50提取具有时序信息的浅层特征作为后续子网的输入;在多尺度时空协同子网,通过设计多尺度时空增强模块捕捉帧级多尺度时空语义,此外,通过输出每个片段中的关键帧来构建关键片段,为后续片段交叉注意子网提供关键信息;在片段交叉注意子网,设计段间关系注意模块和关键片段引导注意模块,分别关注段间交互注意语义和关键片段引导语义,从而捕获长时依赖关系,同时增强关键帧的表达并抑制非关键帧的影响;最后将两种特征融合输出并基于融合特征进行表情识别。在自然场景下的动态人脸表情数据集AFEW和DFEW上的实验结果表明:CA-MST网络表情识别率分别为55.24%和69.82%,在基线3DResNet50的基础上提高了9.51%和15.34%,说明提出的方法在提取多层次、多尺度的时空上下文信息以及提升动态表情识别鲁棒性上具有一定的作用。不同网络性能比较实验表明:与相关方法相比,提出的CA-MST网络能够提升动态表情识别性能。 与自然场景下表情识别的相关方法相比,GE-LA网络通过融合全局增强语义和局部注意特征实现较高的静态表情识别率;另外,CA-MST网络能够捕获长时依赖和多层次、多尺度协同关系以提升动态表情识别效果;因此,提出的网络利于改善自然场景下的表情识别性能。