首页|基于增强特征和注意力机制的视频表情识别

基于增强特征和注意力机制的视频表情识别

扫码查看
端到端的CNN-LSTM模型利用卷积神经网络(Convolutional Neural Network,CNN)提取图像的空间特征,利用长短期记忆网络LSTM提取视频帧间的时间特征,在视频表情识别中得到了广泛的应用.但在学习视频帧的分层表示时,CNN-LSTM模型复杂度较高,且易发生过拟合.针对这些问题,提出一个高效、低复杂度的视频表情识别模型ECNN-SA(Enhanced Convolutional Neural Network with Self-Attention).首先,将视频分成若干视频段,采用带增强特征分支的卷积神经网络和全局平均池化层提取视频段中每帧图像的特征向量.其次,利用自注意力(Self-Attention)机制获得特征向量间的相关性,根据相关性构建权值向量,主要关注视频段中的表情变化关键帧,引导分类器给出更准确的分类结果.最终,该模型在CK+和AFEW数据集上的实验结果表明,自注意力模块使得模型主要关注时间序列中表情变化的关键帧,相比于单层和多层的LSTM网络,ECNN-SA模型能更有效地对视频序列的情感信息进行分类识别.
Video Facial Expression Recognition Based on ECNN-SA

李飞、陈瑞、童莹、陈乐

展开 >

南京工程学院 电力工程学院,江苏 南京 211167

南京工程学院 信息与通信工程学院,江苏 南京 211167

南京邮电大学 通信与信息工程学院,江苏 南京 210003

人脸表情识别 视频序列 自注意力机制 增强特征 卷积神经网络

国家自然科学基金青年基金国家自然科学基金青年基金江苏省自然科学基金青年基金江苏省未来网络科研基金江苏省研究生科研创新计划

6170320161701221BK20170765FNSRFP2021YB26SJCX21_0945

2022

计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
年,卷(期):2022.32(11)
  • 1
  • 4