首页|SE-MCNN-CTC的中文语音识别声学模型

SE-MCNN-CTC的中文语音识别声学模型

扫码查看
为了解决传统卷积神经网络在识别中文语音时预测错误率较高、泛化性能弱的问题,首先以深度卷积神经网络(DCNN)-连接时序分类(CTC)为研究对象,深入分析了不同卷积层、池化层以及全连接层的组合对其性能的影响;其次,在上述模型的基础上,提出了多路卷积神经网络(MCNN)-连接时序分类(CTC),并联合SENet提出了深度SE-MCNN-CTC声学模型,该模型融合了MCNN与SENet的优势,既能加强卷积神经网络的深层信息的传递、避免梯度问题,又可以对提取的特征图进行自适应重标定.最终实验结果表明:SE-MCNN-CTC相较于DCNN-CTC错误率相对降低13.51%,模型最终的错误率达22.21%;算法改进后的声学模型可以有效地提升泛化性能.
Towards end-to-end speech recognition for Chinese mandarin usingSE-MCNN-CTC

张威、翟明浩、黄子龙、李巍、曹毅

展开 >

江南大学机械工程学院 无锡 214122

苏州工业职业技术学院 苏州 215104

深度学习 语音识别 声学模型 SE-MCNN-CTC

国家自然科学基金江苏省"六大人才高峰"计划项目江苏省研究生创新计划项目江苏省研究生创新计划项目高等学校学科创新引智计划项目

51375209ZBZZ-012KYCX18_0630KYCX18_1846B18027

2020

应用声学
中国科学院声学研究所

应用声学

CSTPCDCSCD北大核心
影响因子:1.128
ISSN:1000-310X
年,卷(期):2020.39(2)
  • 9
  • 10