首页|混合CTC/attention架构端到端带口音普通话识别

混合CTC/attention架构端到端带口音普通话识别

扫码查看
针对普通话语音识别任务中的多口音识别问题,提出了链接时序主义(connectionist temporal classifica-tion,CTC)和多头注意力(multi-head attention)的混合端到端模型,同时采用多目标训练和联合解码的方法.实验分析发现随着混合架构中链接时序主义权重的降低和编码器层数的加深,混合模型在带口音的数据集上表现出了更好的学习能力,同时训练一个深度达到48层的编码器—解码器架构的网络,生成模型的表现超过之前所有端到端模型,在数据堂开源的200 h带口音数据集上达到了5.6%字错率和26.2%句错率.实验证明了提出的端到端模型超过一般端到端模型的识别率,在解决带口音的普通话识别上有一定的先进性.
Hybrid CTC/attention architecture for end-to-end multi-accent Mandarin speech recognition

杨威、胡燕

展开 >

武汉理工大学 计算机科学与技术学院,武汉430000

口音 混合CTC/attention的端到端模型 多头注意力 链接时序主义 语音识别

湖北省自然科学基金资助项目

2019CFC919

2021

计算机应用研究
四川省电子计算机应用研究中心

计算机应用研究

CSTPCDCSCD北大核心
影响因子:0.93
ISSN:1001-3695
年,卷(期):2021.(3)
  • 10
  • 2