摘要
随着科技的快速发展,人们对人机交互的要求越来越高。情感计算和人机交互两者之间是密不可分的,而情感识别作为前者的基础,成为近几年来研究突破的主要方向。语音情感识别中经常存在情感特征提取不充分,忽略掉很多重要特征,或者提取的情感特征中无关特征过多,导致识别效果不好;而且大部分情感识别所用的数据集都是在纯净无噪音的情况下获取,所建立的模型无法在背景噪音复杂的自然场景中获取有效的情感特征。针对以上问题,本文提出了基于深度残差收缩网络的自然情境下的多模态情感识别模型,将该网络模型应用于语谱图特征提取和自然情境下的情感识别,并对该模型进行研究和分析。 为使实验所需的语音信号在图谱上更加平滑、均匀,能够提取出更好地信号参数,将原始语音信号进行预加重、分帧、加窗等预处理;并进行傅里叶变换变换,然后进行旋转、映射,得到的多帧频谱进行拼接得到功率谱图,最后经过梅尔滤波器得到语谱图。上述处理过程为后续自动提取情感特征做预处理工作。 提出了基于深度残差收缩网络的自然语音情感识别算法,为了保证语音情感重要特征的提取和无关特征的去除,采用深度残差收缩模块增加重要情感特征的权重;加入双向门控循环单元进一步提取语音情感特征的时序信息,减少模型的复杂参数。在 IEMOCAP数据集和 CASIA数据集上的识别准确率分别为 86.07%和 86.03%,在背景环境比较复杂的 MELD 数据集上的识别率为70.57%,有效的解决了自然情境下大部分语音情感识别率低的问题,但是还存在个别情感识别率过低且存在混淆的问题。 提出了语音和文本结合的多模态情感识别,首先在 XLNet 预训练模型加入双向门控循环单元,使模型能够进一步挖掘词向量的信息,加入注意力机制将权重主要分配在重要词向量上进行学习。双向门控循环单元使模型可以更好的利用上下文语义之间的联系,让学习到的词向量特征含义更加丰富和准确。然后将语音和文本在决策层进行融合,通过CatBoost算法对两种不同模态的情感识别结果进行加权融合,从而进一步增加情感识别准确率。最后在数据集上进行实验分析,验证本文提出的基于深度残差收缩网络的自然情境下的多模态情感识别研究算法的可行性。