摘要
表情作为人类表达情感最直接的方式,在人机交互中起到了重要作用,准确识别人脸表情可以更好地理解人类的心理活动和情绪状态。随着人工智能技术的不断发展,表情识别在医疗诊断、教育辅导、安全驾驶等领域具有巨大的发展潜力和广阔的应用前景。现阶段研究人员主要通过面部特征来推断人脸表情,但是这种研究思路难以实现准确率的进一步提高。在现实环境中,场景信息可以在很大程度上辅助表情的识别,因此本文对融合场景信息的表情识别展开了深入研究,具体工作如下: (1)基于面部信息的图像表情识别。由于人脸面部信息是表情识别的主要依据,因此本文首先对基于面部信息的表情识别展开研究,提出了基于局部定向模式(LocalDirectionalPaaem,LDP)和局部相位量化(LocalPhaseQuantization,LPQ)双特征融合的图像表情识别网络。该网络首先利用LDP和LPQ提取人脸局部特征,用于消除光照变化等干扰因素对表情识别的影响,之后利用深度残差网络ResNet18和轻量级网络MobileNetV2获取面部深层特征,最后通过特征融合实现人脸表情的识别。通过模型在实验室人脸数据集CK+、JAFFE和Oulu-CASIA上的训练和测试,证明了模型可以有效利用面部信息实现表情识别。 (2)融合场景信息的图像表情识别。在面部信息的基础上,为了提高表情识别的准确率,本文将场景信息引入到表情识别的过程中。通过注意力机制探究了场景信息的提取方式,并搭建了多尺度场景信息提取网络。该网络通过在同一卷积层使用不同尺寸的卷积核实现了多重感受野,并通过跳跃连接实现了特征的跨层传递。在此基础上,本文将LDP和LPQ双特征融合网络与多尺度场景信息提取网络相结合,提出了融合场景信息的图像表情识别网络,网络分别对图像中的面部信息和场景信息做特征提取,并通过融合两种信息特征实现表情的识别。利用图像表情数据集SFEW和CAER-S对模型进行了验证和分析,并通过消融实验证明了场景信息的引入有助于提升表情识别的准确率。 (3)融合场景信息的视频表情识别。人脸视频相比于人脸图像,包含了面部表情与周围场景的变化过程,因此为了进一步提升表情识别的准确性和实用性,本文对融合场景信息的视频表情识别展开研究,提出了融合场景信息的视频表情识别网络。该网络沿用了之前面部信息和场景信息双通道的识别模式,并引入了三维卷积网络SlowFast和长短期记忆网络LSTM,实现了对人脸视频中时序信息的获取和利用。为了提升模型的训练效果,本文采用了网络预训练、面部信息通道数据增强和标签平滑等技术。利用视频表情数据集AFEW和CAER验证了模型的识别效果,并通过对比实验证明了模型架构的合理性。