摘要
语音情感识别(SpeechEmotionRecognition,SER)是人机交互技术中的重要组成部分,在实现这一目标的过程中,提取有效的语音情感特征起着至关重要的作用。使用有效的数据增强方法,选择合适的语音情感特征,设计高效的情感特征提取模型对这一技术的发展意义重大。 论文探讨了语音情感识别中数据增强、声学特征选择与有效提取情感特征的问题,引入低复杂度的声学特征输入,提出了结合数据增强策略的双向门控循环单元(BidirectionalGatedRecurrentUnit,BGRU)以进行高效的语音情感识别;其次为进一步提升情感特征的表征能力,提出基于采样点自适应算法(SamplingPointAdaptationalgorithm,SPA)的双支路特征融合模型(DualBranchFeatureFusionmodel,DBFF);最后,为研究不同支路特征通道的重要性,提出了基于通道注意力(ChannelAttention,CA)机制的SPA-CDBFF-BGRU情感识别模型。具体研究内容如下: (1)基于数据增强与降低模型输入复杂度的思想,本文提出高效的BGRU情感识别模型。论文以传统的谱相关特征和韵律学特征为主,构建了低复杂度的声学特征输入支路,降低了输入数据的复杂性;通过加噪,随机速度增强,随机音量增强等数据增强技术提升数据集的泛化能力和鲁棒性,在CASIA情感数据集上进行验证,BGRU模型平均情感识别率达到了90.83%,与Attention-CGRU相比提升了4.5%,但对易混淆的情感对的识别仍存在提升的空间。 (2)为增强情感特征的表征能力,论文提出了基于SPA算法改进特征提取的DBFF模型。首先引入音频特征支路,基于SPA算法对原始的语音信号进行去除两端沉默以及重采样操作,使语音信号在去除冗余信息的同时保留原本的时序特征信息,并保持了固定的采样点数,有益于模型的输入。结合声学特征支路,对双支路提取的增强特征进行拼接,并通过融合网络作进一步的特征提取,以增强融合特征的情感表征能力。在CASIA情感数据集下DBFF和SPA-DBFF模型的情感识别率分别达到了84.17%和89.58%,验证了SPA算法的有效性;此外SPA-DBFF模型对恐惧和伤心这一对易混淆情感对的识别有所提升,但其它情感的平均识别率则有所下降;经由输出融合的SPA-DBFF-BGRU模型准确率达到了93.33%,相较于未经输出融合的BGRU模型和SPA-DBFF模型分别提升了2.5%和3.75%,验证了输出加权融合的策略提升了模型整体的情感表征能力。 (3)为了提取双支路特征通道的重要性以进一步提升模型的整体性能,本文提出基于通道注意力机制的SPA-CDBFF-BGRU模型。论文采取了压缩-激励(Squeeze-and-ExcitationNetwork,SENet)和高效通道注意力(EfficientChannelAttention,ECA)关注双支路的特征通道重要性,并通过实验确定最佳的通道注意力机制融合策略。在CASIA情感数据集下,SPA-CDBFF-BGRU的整体情感识别准确率达到了94.58%,相较于SPA-DBFF-BGRU提升了1.25%,验证了通道注意力机制融合策略的有效性。