重庆理工大学学报2022,Vol.36Issue(1) :120-127.DOI:10.3969/j.issn.1674-8425(z).2022.01.015

基于音视频特征融合的情感识别方法研究

Research on emotion recognition method based on audio and video feature fusion

帖云 程慧杰 靳聪 李小兵 齐林
重庆理工大学学报2022,Vol.36Issue(1) :120-127.DOI:10.3969/j.issn.1674-8425(z).2022.01.015

基于音视频特征融合的情感识别方法研究

Research on emotion recognition method based on audio and video feature fusion

帖云 1程慧杰 1靳聪 2李小兵 3齐林1
扫码查看

作者信息

  • 1. 郑州大学 信息工程学院,郑州 450001
  • 2. 中国传媒大学 信息与通信工程学院,北京 100024
  • 3. 中央音乐学院,北京 100031
  • 折叠

摘要

传统的视频情感识别工作主要集中在面部表情、人体的动作行为等,忽略了场景和对象中包含大量的情感线索及不同对象之间的情感关联.因此,提出了一个基于视觉关系推理和跨模态信息学习的音视频特征融合网络模型用于预测视频情感.模型主要包括三部分:对象间的情感关系推理、声学特征提取、跨模态交互融合.首先,采用Mask R-CNN模型提取出包含物体的区域并提取出相应的特征序列,利用图注意力网络对视频帧中的不同区域之间的情感关联进行推理,找到视频帧中的关键区域;然后,利用双向长短时记忆网络提取对数梅尔频谱片段的帧级上下文信息,对视觉信息进行补充;最后,将多头注意力机制应用到跨模态交互融合模块中去学习不同模态信息之间的隐藏关联,并将利用跨模态注意得到的音视频特征利用门控神经网络进行融合.所提出的模型在数据集Video Emotion-8和Ekman上具有较好的精确度.

关键词

情感识别/情感关系推理/跨模态交互/图卷积神经网络/多头注意力机制

引用本文复制引用

基金项目

国家自然科学基金(61631016)

国家重点研发计划(2018YFB1403900)

中国传媒大学中央高校基本科研业务费专项(CUC200B017)

出版年

2022
重庆理工大学学报
重庆理工大学

重庆理工大学学报

CSTPCD北大核心
影响因子:0.567
ISSN:1674-8425
被引量1
参考文献量2
段落导航相关论文