首页|基于深度学习网络的语音情感识别方法研究

基于深度学习网络的语音情感识别方法研究

扫码查看
针对现有以CNN(Convolutional Neural Networks,卷积神经网络)为深度学习网络特征提取基础的语音情绪识别方法准确率较低的问题,将注意力机制(Attention)和双向GRU(Bi-directional Gated Recurrent Unit,BiGRU,门控循环单元)引入深度学习网络,以提升模型整体的准确率.模型将现阶段在语音领域特征能力效果较好的语音信号梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)作为深度学习网络的输入,通过结合了注意力机制和BiGRU的CNN网络,在CASIA中文语音数据集上相较于传统CNN及一般GRU模型准确率方面均有提升,证明了双向GRU在语音情感识别领域对准确率提高的积极作用.
Research on Speech Emotion Recognition Method Based on Deep Learning Network

董炳辰、汤鲲

展开 >

武汉邮电科学研究院 武汉 430074

南京烽火天地通信科技有限公司 南京 210019

语音情感识别 深度学习 梅尔频率倒谱系数 CNN BiGRU

2022

计算机与数字工程
中国船舶重工集团公司第七0九研究所

计算机与数字工程

CSTPCD
影响因子:0.355
ISSN:1672-9722
年,卷(期):2022.50(8)
  • 10