基于深度学习的视频人脸表情识别算法研究与实现

李金海¹

扫码查看

作者信息

1. 桂林电子科技大学
折叠

摘要

表情是人类交流中的情绪表达方式，在人机交互中具有重要意义。随着人工智能的快速发展，表情识别技术在安全驾驶、医疗监护、线上教育与广告营销等领域有着广泛的应用前景。目前基于深度学习的视频人脸表情识别的两种主流方法有：(1)使用三维卷积神经网络对视频表情进行分类。但该方法受限于较大的模型参数量与计算量，难以在实际场景中进行部署。(2)使用卷积神经网络和循环神经网络进行结合的级联模型，提取视频的时空特征，并通过分类器进行表情分类。该方法计算效率较高，但如何进一步提取最具判别性表情特征，仍是当前的研究难点。针对上述问题，本文主要工作如下：针对三维卷积神经网络参数量过大的问题，提出一种基于深度可分离卷积的三维残差网络模型。该方法首先以残差网络为基础模型，结合三维卷积能够同时提取时空特征的特点，搭建三维残差网络模型。其次，提出了三维深度可分离卷积，对模型残差模块中的三维卷积运算过程进行分离，降低了模型的复杂度。通过对比实验证明，引入三维深度可分离卷积的模型，能够在牺牲少量识别性能的前提下，最大幅度地降低模型参数量与计算量。针对级联模型提取最具判别性表情特征的问题，提出了基于注意力机制的残差网络与门控循环网络的级联模型。嵌入一种轻量级的通道注意力模块到空间特征提取网络ResNet18中，该模块能够有效增强表情的关键特征通道。其次，在时序特征提取GRU网络中加入时序注意力模块，能够提升GRU网络对关键视频帧的关注。通过实验表明，两种注意力模块的加入能够有效提升模型的性能，实现对判别性表情特征的聚焦。以上述提出的算法模型为基础，设计了一套人脸表情识别系统。该系统可以对本地视频和实时采集的视频图像进行人脸表情识别。通过测试实验，该系统的识别功能，在1080P分辨率的正常光照条件下，各类表情的识别准确率达到90%以上；在720P分辨率的暗光场景下仍然有78.57%以上的识别准确率。其中，对本地硬盘上的视频文件的识别速度大于12.23FPS，实时拍摄的识别速度大于48.02FPS。

关键词

人脸表情识别/深度可分离卷积/门控循环网络/注意力机制/深度学习

引用本文复制引用

授予学位

硕士

学科专业

控制工程

导师

李俊

学位年度

2022

学位授予单位

桂林电子科技大学

语种

中文

中图分类号

段落导航