混合CTC/attention架构端到端带口音普通话识别

Hybrid CTC/attention architecture for end-to-end multi-accent Mandarin speech recognition

杨威 ¹胡燕¹

扫码查看

作者信息

1. 武汉理工大学计算机科学与技术学院,武汉430000
折叠

摘要

针对普通话语音识别任务中的多口音识别问题,提出了链接时序主义(connectionist temporal classifica-tion,CTC)和多头注意力(multi-head attention)的混合端到端模型,同时采用多目标训练和联合解码的方法.实验分析发现随着混合架构中链接时序主义权重的降低和编码器层数的加深,混合模型在带口音的数据集上表现出了更好的学习能力,同时训练一个深度达到48层的编码器—解码器架构的网络,生成模型的表现超过之前所有端到端模型,在数据堂开源的200 h带口音数据集上达到了5.6％字错率和26.2％句错率.实验证明了提出的端到端模型超过一般端到端模型的识别率,在解决带口音的普通话识别上有一定的先进性.

关键词

口音/混合CTC/attention的端到端模型/多头注意力/链接时序主义/语音识别

引用本文复制引用

基金项目

湖北省自然科学基金资助项目(2019CFC919)

出版年

2021

计算机应用研究

四川省电子计算机应用研究中心

计算机应用研究

CSTPCDCSCD北大核心

影响因子：0.93

ISSN：1001-3695

被引量10

参考文献量2

段落导航