首页|基于不同单元的端到端语音识别

基于不同单元的端到端语音识别

扫码查看
端到端语音识别技术不需要文本和语音序列的强制对齐过程,且比传统语音识别系统有着更为简单直观的结构和更好的适应能力,它不需要精准的发音词典,在资源匮乏语言的语音识别研究中有更好的发展前景.该文在循环神经网络(RNN)和链接时序分类(CTC)的基础上,实现维吾尔语不同粒度的端到端的语音识别系统,且在较少的语料库(THUYG公开语料库)上将该方法和传统的 HMM语音识别框架进行比较.单音素基础上端到端方法的表现超过传统 HMM-GMM框架,CER下降 10.6%,而且经过稍微减少冗余后的以单字符作为建模单元的端到端语音识别系统对比基于三音素的 HMM-GMM系统 CER 下降 2.23%.对于资源匮乏语言,粒度单元的优化方法将是提高性能的下一个研究目标.
End-to-end ASR via Different Acoustic Unit
End-to-end speech recognition technology has a simpler and more intuitive framework with better adapta-bility than traditional speech recognition framework.Based on RNN and CTC,this paper implements an end-to-end speech recognition system of Uyghur language via different acoustic unit.We compare this method with the tradi-tional HMM speech recognition framework in a small corpora(THUYG).The experimental results show that the end-to-end speech recognition system based on mono-phone outperforms the HMM-GMM based on mono-phone and triphone by 10.6%and 2.23%lower CER,respectively.

end-to-endASRUyghurcnnectionist temporal classification

张岩、艾斯卡尔·艾木都拉、米吉提·阿不里米提

展开 >

新疆大学 信息科学与工程学院,新疆 乌鲁木齐 830046

端到端技术 语音识别 维吾尔语 链接时序分类

国家重点研究与发展计划

2017YFC0820602

2024

中文信息学报
中国中文信息学会,中国科学院软件研究所

中文信息学报

CSTPCDCHSSCD北大核心
影响因子:0.8
ISSN:1003-0077
年,卷(期):2024.38(1)
  • 22