摘要
近年来,语音情感识别的研究一直是一项具有挑战性的任务。语音情感识别的目的是从语音中提取情感特征,并将其分类为快乐、悲伤、愤怒或中性等情感。早期的语音情感识别的研究广泛依赖于使用音频特征来构建性能良好的分类器的模型。但人类在对话中不仅通过语音表达情感,还通过面部表情和身体动作来表达情感,而语音信息本质上是由声学特征和文本信息组成,因此文本信息中也包含情感特征。由于仅使用语音数据的情感识别模型的性能逐渐达到瓶颈,越来越多的研究人员开始投入到多模态语音情感识别研究中。然而,早期的研究大多数没有更有效的单模态特征提取模型,而且忽略了不同模态情感特征间的联系,导致未能获得每个模态更高阶的情感特征表示,同时多模态特征融合时采用了特征向量直接拼接的方式,以至于不能灵活地控制每个模态的情感特征在多模态融合特征中参与的权重,导致融合后的多模态特征表示不够准确。 为解决以上问题,本文提出了新的基于多模态特征融合的语音情感识别模型,该模型采用语音的转录文本以及相关动作捕捉数据来辅助语音数据进行情感识别,这些动作捕捉数据包括与语音数据同步采集的面部表情、头部旋转和手部动作数据。 本文主要工作分为以下两部分: 首先,模型使用BiLSTM(Bi-directional Long Short-Term Memory, BiLSTM)分别对语音和文本进行情感特征提取,而动作模态使用深度残差收缩网络进行噪声过滤和情感特征提取。同时,本文使用多头注意力来学习语音和文本、语音和动作捕捉之间的相似性权重,增强与语音特征存在联系的文本和动作情感特征表示,减弱与语音特征没有联系的文本和动作征表示,实现了文本、动作与语音情感特征的对齐。最后将增强后的文本和动作情感特征与语音特征进行灵活的加权融合,这样可以获得更准确的多模态情感特征。 其次,对上述工作进一步改进,本论文将第一部分中语音和文本的特征提取模型改进为两层的 Transformer编码器模型。在多模态特征融合方面,本文通过改变Transformer的编码器的输入方式来获取语音和文本、语音和动作捕捉之间的相似性权重,增强与语音情感特征存在联系的文本和动作情感特征表示,并实现不同模态情感特征的对齐。本工作中,将增强后的文本和动作情感特征与语音情感特征进行3D加权融合。与改进前相比,3D加权融合获得了更加准确且保留更多情感特征信息的多模态融合特征。通过实验,证明了改进模型在多模态语音情感识别的先进性。