摘要
情感识别技术在医疗、教育和商业服务等多个领域的应用日益增加,旨在通过识别和理解用户的情感状态来实现更自然的人机交互体验。考虑到人类往往通过综合多种模态来实现对情感的表达和理解,因此,多模态情感识别(Multimodal Emotion Recognition, MER)受到了研究人员们的广泛关注。其中,语音和文本是人类情感表达的主要媒介,两者的结合能够提供丰富的情感线索。为进一步提升基于语音和文本的多模态情感识别方法的预测准确率,本文分别针对情感特征提取、多模态特征融合以及融合表征处理这三个关键环节进行了深入研究,并将本文的主要研究工作总结为如下: 1. 情感识别不应仅依赖于捕捉句中情感关键词,还应在考虑全局语境后做出综合判断,现有研究往往忽略了对上述不同阶段的独立建模。为此,本研究提出了一种特征驱动的多阶段融合和动态精炼网络( Multiple-stage Fusion and Dynamically Refined Network, MFDR),通过滑动自适应窗口注意力和门控语境感知单元来依次建模上述声-词交互过程中的不同阶段。更重要的是,在不增加内存开销以及额外参数的情况下,MFDR允许根据声-词特征间的关联强度自适应地调整感知尺度,以解决窗口截断造成的信息损失和时序错位问题。最后,通过动态帧卷积来有效地识别并弱化那些与情感表达不相关或贡献较小的信息,进而得到更具情感判别性的融合表征。本方法在多个情感数据集上进行了验证。实验结果表明,在IEMOCAP上的加权精确度(WA)为78.4%,未加权精确度(UA)为79.2%;在CMU-MOSI和CMU-MOSEI上分别实现了83.5%和85.2%的识别准确率,证明了MFDR在多模态情感识别任务中的有效性。 2. 标准卷积在处理语音特征方面取得了显著成效,但受限于核函数的感受野而使其难以有效捕获对理解情感表达至关重要的全局信息。此外,循环单元虽在提取文本的时序特征方面表现优异,但却无法对其中蕴含的句法结构进行充分建模。为此,本文提出基于句法-情感图交互与深度全局注意力卷积的亲和度融合网络( Affinity Fusion Network based on Syntactic-Emotional Graph Interaction and Deep Global Attention Convolution, SEDA),在句法图的基础上进一步引入了情感图,从而为提取文本高阶情感表征提供了更为全面和深入的视角。通过对音频特征图进行重要性分析来进一步强化SEDA对情感关键特征的表征能力。在综合考虑句法与情感交互后,亲和度融合模块能够克服模态异构带来的噪声效应,从而实现对语音和文本信息的高效整合。实验结果表明,SEDA在IEMOCAP上的WA和UA分别为77.4%和78.2%;在CMU-MOSI和CMU-MOSEI上分别取得了82.8%和84.7%的识别准确率,该结果与现有研究方法相比,具有一定的优越性,充分验证了SEDA的有效性。 3. 通过语音和文本模态的信息互补,可以提供关于说话人丰富的情感线索,这对情感识别技术在人机交互过程中的落地实现具有很好的支撑作用。考虑到以往大多是基于单模态的情感识别系统,因此,本文进一步设计并实现了基于语音和文本的多模态情感识别系统。该系统能够通过融合语音和文本输入并应用本文提出的网络模型对其中表达的情感倾向进行有效识别,具有较好实用性。