基于面部重要区域与时空特征解耦的视频表情识别研究

胡鹏远¹

扫码查看

作者信息

1. 合肥工业大学
折叠

摘要

表情作为人类一种非语言交流方式，相比起语言交流方式，表情更能直接地反映一个人内心真实意图和心理状态。如何使计算机读懂人类表情，进行更加有效的交流成为人机交互领域的一项重要课题。人脸表情的表达是面部肌肉协同运动的结果，是一个动态变化的过程：相较于静态人脸图像，视频序列记录了表情发生的完整过程，对人脸表情的描述更加真实准确。人脸表情很大程度上是通过与表情相关的人脸关键区域的动态变化来完成，如何改善使其模型重点关注这些区域成为人脸表情识别任务的关键。同时，考虑到人脸表情时空特征语义杂糅的情况，引出如何有效分离时空特征信息，并保证各个维度特征独立性的相关研究。本文针对如何有效获取面部表情关键区域的特征以及在视频序列人脸表情识别中如何有效分离其时空特征的问题进行了深入探究，主要包括以下两方面的工作：（1）针对视频序列中表情强度不一致，长短时记忆网络(LongShort-termMemory,LSTM)难以有效提取其特征的问题，提出一种基于面部运动单元和时序注意力的视频表情识别方法。首先在卷积LSTM(ConvolutionLSTM，ConvLSTM)中构建时序注意力模块提取视频序列的时序特征，在降低特征维度的同时保留丰富表情特征信息；其次提出基于面部动作单元的人脸图像分割规则，用于解决面部表情关键区域难以界定的问题；最后在模型中引入标签修正模块，削弱不确定性样本对模型训练的干扰。在MMI，Oulu-CASIA和AFEW数据集上的实验结果表明，该方法的模型参数量低于已公开的主流模型，且在MMI数据集上的平均识别准确率达到87.22%，高于目前主流方法，在整体效果上优于目前具有代表性的方法。（2）针对自然环境下复杂表情识别困难的问题，构建了一个基于时空特征解耦的视频表情识别模型。为使模型对人脸表情重要表达区域的内在联系实现更全面地、精准地捕捉，将自注意力机制引入模型中。同时考虑到自注意力机制在视频表情识别任务中带来的时空特征语义混乱的问题，设计了时空特征解耦模块对时空特征进行解耦，保证各个维度特征的独立性。其次，为增强模型对人脸表情的表征能力，在模型中加入了区域层网络，用于获取人脸局部区域的表情细节特征。在实验室环境以及自然环境下的数据集上的实验结果证明了本文方法的有效性。

关键词

视频表情识别/面部重要区域/时空特征解耦/长短时记忆网络

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

胡敏

学位年度

2022

学位授予单位

合肥工业大学

语种

中文

中图分类号

段落导航