摘要
提出了一种改进的端到端语音识别方法.该方法在多任务学习框架下的混合注意力模型和CTC(联结时序主义分类)模型基础上,在编码器扩展了深度卷积神经网络,弥补了纯注意力模型和纯CTC算法模型各自的缺点,相较于混合模型有一定性能提升.进一步验证传统MT L模型在噪声环境下的优异表现的同时也证明E x-MT L相比传统模型有更好的识别准确率.基于安静环境和噪声环境下多种中文语料库的实验证明了其表现优于纯注意力模型、纯CTC算法模型,且训练收敛和对齐速度更快.安静环境下字符错误率(CER)分别降低2·53%和0·93%,噪声环境下字符错误率(CER)分别降低4·45%和3·45%.