融合音频、文本、表情动作的多模态情感识别

JIA Ning ¹贾宁 ¹ZHENG Chunjun 郑纯军

扫码查看

作者信息

1. 大连东软信息学院软件学院,辽宁大连 116023
折叠

摘要

针对机器识别人类情感过程中的精度不高、泛化能力不强等问题,提出了一种基于语音、文本和表情动作的3种模态情感识别融合方法 .在语音模态中,设计深度波场延拓和改进波动物理模型,模拟长短期记忆(long short-term memory,LSTM)网络的序列信息挖掘过程;在文本模态中,利用含有多头注意力机制的Transformer模型捕捉语义上潜在的情感表达;在表情动作模态中,将提取面部表情和手部动作的序列特征与双向三层含有注意力机制的LSTM模型相结合.最终提出一种多性能指标下的模态融合方案,以实现高精度的、强泛化能力的情感识别.在通用的交互式情感二元运动捕捉语料库IEMOCAP中,将所提出的方法与现有的情感识别算法进行对比,实验结果表明:所提出的算法在单个模态和多个模态中的识别精度均较高,平均精度改善达到16.4％和10.5％,有效提升了人机交互中情感识别的能力.

关键词

语音情感识别/文本情感识别/动作情感识别/Transformer模型/注意力机制

引用本文复制引用

主办单位

中国计算机学会

会议名称

CCF第37届中国计算机应用大会

会议时间

2022-07-29

会议地点

广州

会议母体文献

CCF第37届中国计算机应用大会论文集

页码

55-70

出版时间

2022

段落导航