基于CNN的扩展混合端到端中文语音识别模型

An Extended Hybrid End-to-end Chinese Speech Recognition Model Based on CNN

武阳 ¹余综¹

扫码查看

作者信息

1. 中国电子科技集团公司第十五研究所,北京 100083
折叠

摘要

提出了一种改进的端到端语音识别方法.该方法在多任务学习框架下的混合注意力模型和CTC(联结时序主义分类)模型基础上,在编码器扩展了深度卷积神经网络,弥补了纯注意力模型和纯CTC算法模型各自的缺点,相较于混合模型有一定性能提升.进一步验证传统MT L模型在噪声环境下的优异表现的同时也证明E x-MT L相比传统模型有更好的识别准确率.基于安静环境和噪声环境下多种中文语料库的实验证明了其表现优于纯注意力模型、纯CTC算法模型,且训练收敛和对齐速度更快.安静环境下字符错误率(CER)分别降低2·53％和0·93％,噪声环境下字符错误率(CER)分别降低4·45％和3·45％.

关键词

语音识别/端到端/联结时序主义分类/注意力机制/卷积神经网络

引用本文复制引用

基金项目

中国电子科技集团项目(C201700721)

出版年

2020

青岛科技大学学报(自然科学版)

青岛科技大学

青岛科技大学学报(自然科学版)

CSTPCD

影响因子：0.297

ISSN：1672-6987

被引量1

参考文献量3

段落导航