基于深度学习的语音情感识别方法研究

黄济阳¹

扫码查看

作者信息

1. 深圳大学
折叠

摘要

语音情感识别（SpeechEmotionRecognition，SER）是人机交互技术中的重要组成部分，在实现这一目标的过程中，提取有效的语音情感特征起着至关重要的作用。使用有效的数据增强方法，选择合适的语音情感特征，设计高效的情感特征提取模型对这一技术的发展意义重大。论文探讨了语音情感识别中数据增强、声学特征选择与有效提取情感特征的问题，引入低复杂度的声学特征输入，提出了结合数据增强策略的双向门控循环单元（BidirectionalGatedRecurrentUnit，BGRU）以进行高效的语音情感识别；其次为进一步提升情感特征的表征能力，提出基于采样点自适应算法（SamplingPointAdaptationalgorithm，SPA）的双支路特征融合模型（DualBranchFeatureFusionmodel，DBFF）；最后，为研究不同支路特征通道的重要性，提出了基于通道注意力（ChannelAttention，CA）机制的SPA-CDBFF-BGRU情感识别模型。具体研究内容如下：（1）基于数据增强与降低模型输入复杂度的思想，本文提出高效的BGRU情感识别模型。论文以传统的谱相关特征和韵律学特征为主，构建了低复杂度的声学特征输入支路，降低了输入数据的复杂性；通过加噪，随机速度增强，随机音量增强等数据增强技术提升数据集的泛化能力和鲁棒性，在CASIA情感数据集上进行验证，BGRU模型平均情感识别率达到了90.83%，与Attention-CGRU相比提升了4.5%，但对易混淆的情感对的识别仍存在提升的空间。（2）为增强情感特征的表征能力，论文提出了基于SPA算法改进特征提取的DBFF模型。首先引入音频特征支路，基于SPA算法对原始的语音信号进行去除两端沉默以及重采样操作，使语音信号在去除冗余信息的同时保留原本的时序特征信息，并保持了固定的采样点数，有益于模型的输入。结合声学特征支路，对双支路提取的增强特征进行拼接，并通过融合网络作进一步的特征提取，以增强融合特征的情感表征能力。在CASIA情感数据集下DBFF和SPA-DBFF模型的情感识别率分别达到了84.17%和89.58%，验证了SPA算法的有效性；此外SPA-DBFF模型对恐惧和伤心这一对易混淆情感对的识别有所提升，但其它情感的平均识别率则有所下降；经由输出融合的SPA-DBFF-BGRU模型准确率达到了93.33%，相较于未经输出融合的BGRU模型和SPA-DBFF模型分别提升了2.5%和3.75%，验证了输出加权融合的策略提升了模型整体的情感表征能力。（3）为了提取双支路特征通道的重要性以进一步提升模型的整体性能，本文提出基于通道注意力机制的SPA-CDBFF-BGRU模型。论文采取了压缩-激励（Squeeze-and-ExcitationNetwork，SENet）和高效通道注意力（EfficientChannelAttention，ECA）关注双支路的特征通道重要性，并通过实验确定最佳的通道注意力机制融合策略。在CASIA情感数据集下，SPA-CDBFF-BGRU的整体情感识别准确率达到了94.58%，相较于SPA-DBFF-BGRU提升了1.25%，验证了通道注意力机制融合策略的有效性。

关键词

语音情感识别/数据增强/声学特征/采样点自适应算法/双支路特征融合模型

引用本文复制引用

授予学位

硕士

学科专业

电子信息

导师

刘承香

学位年度

2024

学位授予单位

深圳大学

语种

中文

中图分类号

段落导航