基于增强特征和注意力机制的视频表情识别

Video Facial Expression Recognition Based on ECNN-SA

李飞 ¹陈瑞 ²童莹 ²陈乐³

扫码查看

作者信息

1. 南京工程学院电力工程学院,江苏南京 211167
2. 南京工程学院信息与通信工程学院,江苏南京 211167
3. 南京邮电大学通信与信息工程学院,江苏南京 210003
折叠

摘要

端到端的CNN-LSTM模型利用卷积神经网络(Convolutional Neural Network,CNN)提取图像的空间特征,利用长短期记忆网络LSTM提取视频帧间的时间特征,在视频表情识别中得到了广泛的应用.但在学习视频帧的分层表示时,CNN-LSTM模型复杂度较高,且易发生过拟合.针对这些问题,提出一个高效、低复杂度的视频表情识别模型ECNN-SA(Enhanced Convolutional Neural Network with Self-Attention).首先,将视频分成若干视频段,采用带增强特征分支的卷积神经网络和全局平均池化层提取视频段中每帧图像的特征向量.其次,利用自注意力(Self-Attention)机制获得特征向量间的相关性,根据相关性构建权值向量,主要关注视频段中的表情变化关键帧,引导分类器给出更准确的分类结果.最终,该模型在CK+和AFEW数据集上的实验结果表明,自注意力模块使得模型主要关注时间序列中表情变化的关键帧,相比于单层和多层的LSTM网络,ECNN-SA模型能更有效地对视频序列的情感信息进行分类识别.

关键词

人脸表情识别/视频序列/自注意力机制/增强特征/卷积神经网络

引用本文复制引用

基金项目

国家自然科学基金青年基金(61703201)

国家自然科学基金青年基金(61701221)

江苏省自然科学基金青年基金(BK20170765)

江苏省未来网络科研基金(FNSRFP2021YB26)

江苏省研究生科研创新计划(SJCX21_0945)

出版年

2022

计算机技术与发展

陕西省计算机学会

计算机技术与发展

CSTPCD

影响因子：0.621

ISSN：1673-629X

被引量1

参考文献量4

段落导航