摘要
随着科技的快速发展,情感识别已经成为智能机器与人类交流的重要环节之一,其不仅能够促进人工智能更好地与用户进行沟通,还在教育、交通、医疗等多个领域有着无法替代的作用。近几年已有语音和人脸表情融合的双模态情感识别方法,然而这些方法存在一些不足,第一,预处理后的数据依然含有噪声干扰,影响后续特征提取的效果;第二,提取的语音情感特征的丰富性不足;第三,不同模态特征之间的融合方法不足以充分结合情感信息,融合特征的表征力有待提高。因此,本文从语音数据预处理、语音情感特征提取和双模态情感特征融合三个方面对双模态情感识别进行研究,主要研究内容如下: (1)为了能够有效去除语音信号中的噪声,并保留有用信息,本文提出了一种改进的小波阈值去噪算法。该算法在阈值方面结合了峰和比(Peak-to-SumRatio,PSR)算法的优势,能够依据每层小波系数来评估噪声和有用信息的含量,从而使阈值能够自动做出修正,以适应不同层的噪声分布;在阈值函数方面,本文中和了硬阈值函数和软阈值函数,使阈值函数在小波域内连续且减小了软阈值函数的恒定偏差。实验结果表明,在含噪信号的信噪比(Signal-to-NoiseRatio,SNR)分别约为5dB、10dB和15dB的情况下,本文改进的小波阈值去噪算法的去噪效果均优于通用的小波阈值去噪算法,改善了噪声去除不净且有用信息损失的现象。 (2)为了能够提取丰富性充足的语音情感特征,本文提出一种多分支双向多尺度时间感知模型(Multi-branchBi-directionMult-scaleTemporal-awareNetwork,MBMT-Net)。在MBMT-Net模型中搭建了多分支双向多尺度时间感知模块,该模块由多个时间感知单元以并联的形式组成,其中每个单元包含空洞因果卷积。该模块为每条分支的空洞因果卷积分配了不同的扩张率,以实现对时间维度上正向与反向的梅尔频率倒谱系数(MelFrequencyCepstralCoefficient,MFCC)的多尺度感知,从而获取语音的时间关联性信息和前后依赖信息。消融实验结果表明,多分支双向多尺度时间感知模块增强了语音情感特征的丰富性,使四个数据集上的语音情感识别(SpeechEmotionRecognition,SER)准确率平均提升了17.91%。 (3)为了能够充分融合多个不同尺度的语音情感特征,本文在MBMT-Net模型中搭建了一种多尺度特征动态融合模块。该模块先将不同尺度的特征拼接为矩阵,再通过因果卷积提取该矩阵的时间关联性信息,并根据信息为矩阵分配注意力图谱,从而获得最终的融合特征。消融实验结果表明,多尺度特征动态融合模块能够充分结合不同尺度的语音情感特征,从而提高融合特征的丰富性,使四个数据集上的SER准确率平均提升了1.75%。 (4)为了能够有效融合双模态情感识别中不同模态的特征,从而提高融合特征的表征力,本文提出了Res-MBMT-Net模型,该模型由ResNet-34、MBMT-Net和本文设计的双模态特征融合算法组成。首先,采用MBMT-Net与ResNet-34分别提取语音和人脸表情的情感特征;之后,采用双模态特征融合算法将两种模态的特征进行融合,得到融合特征;最后,将融合特征输入Softmax分类器进行情感分类。其中,双模态特征融合算法先将两种特征拼接,再结合AlexNet网络的优势,采用重叠的最大池化层获取拼接矩阵中丰富度更高的融合特征。实验结果表明,基于Res-MBMT-Net模型的双模态情感识别方法在RAVDESS和eNTERFACE’05数据集上的准确率分别达到97.67%和90.14%,优于其他常见方法。