摘要
表情是人类交流中的情绪表达方式,在人机交互中具有重要意义。随着人工智能的快速发展,表情识别技术在安全驾驶、医疗监护、线上教育与广告营销等领域有着广泛的应用前景。目前基于深度学习的视频人脸表情识别的两种主流方法有:(1)使用三维卷积神经网络对视频表情进行分类。但该方法受限于较大的模型参数量与计算量,难以在实际场景中进行部署。(2)使用卷积神经网络和循环神经网络进行结合的级联模型,提取视频的时空特征,并通过分类器进行表情分类。该方法计算效率较高,但如何进一步提取最具判别性表情特征,仍是当前的研究难点。针对上述问题,本文主要工作如下: 针对三维卷积神经网络参数量过大的问题,提出一种基于深度可分离卷积的三维残差网络模型。该方法首先以残差网络为基础模型,结合三维卷积能够同时提取时空特征的特点,搭建三维残差网络模型。其次,提出了三维深度可分离卷积,对模型残差模块中的三维卷积运算过程进行分离,降低了模型的复杂度。通过对比实验证明,引入三维深度可分离卷积的模型,能够在牺牲少量识别性能的前提下,最大幅度地降低模型参数量与计算量。 针对级联模型提取最具判别性表情特征的问题,提出了基于注意力机制的残差网络与门控循环网络的级联模型。嵌入一种轻量级的通道注意力模块到空间特征提取网络ResNet18中,该模块能够有效增强表情的关键特征通道。其次,在时序特征提取GRU网络中加入时序注意力模块,能够提升GRU网络对关键视频帧的关注。通过实验表明,两种注意力模块的加入能够有效提升模型的性能,实现对判别性表情特征的聚焦。 以上述提出的算法模型为基础,设计了一套人脸表情识别系统。该系统可以对本地视频和实时采集的视频图像进行人脸表情识别。通过测试实验,该系统的识别功能,在1080P分辨率的正常光照条件下,各类表情的识别准确率达到90%以上;在720P分辨率的暗光场景下仍然有78.57%以上的识别准确率。其中,对本地硬盘上的视频文件的识别速度大于12.23FPS,实时拍摄的识别速度大于48.02FPS。