基于不同单元的端到端语音识别

End-to-end ASR via Different Acoustic Unit

扫码查看

原文链接

NETL
NSTL
万方数据

中文摘要：端到端语音识别技术不需要文本和语音序列的强制对齐过程,且比传统语音识别系统有着更为简单直观的结构和更好的适应能力,它不需要精准的发音词典,在资源匮乏语言的语音识别研究中有更好的发展前景.该文在循环神经网络(RNN)和链接时序分类(CTC)的基础上,实现维吾尔语不同粒度的端到端的语音识别系统,且在较少的语料库(THUYG公开语料库)上将该方法和传统的 HMM语音识别框架进行比较.单音素基础上端到端方法的表现超过传统 HMM-GMM框架,CER下降 10.6%,而且经过稍微减少冗余后的以单字符作为建模单元的端到端语音识别系统对比基于三音素的 HMM-GMM系统 CER 下降 2.23%.对于资源匮乏语言,粒度单元的优化方法将是提高性能的下一个研究目标.

外文摘要：End-to-end speech recognition technology has a simpler and more intuitive framework with better adapta-bility than traditional speech recognition framework.Based on RNN and CTC,this paper implements an end-to-end speech recognition system of Uyghur language via different acoustic unit.We compare this method with the tradi-tional HMM speech recognition framework in a small corpora(THUYG).The experimental results show that the end-to-end speech recognition system based on mono-phone outperforms the HMM-GMM based on mono-phone and triphone by 10.6%and 2.23%lower CER,respectively.

外文关键词：

end-to-endASRUyghurcnnectionist temporal classification

作者：

张岩、艾斯卡尔·艾木都拉、米吉提·阿不里米提

展开 >

作者单位：

新疆大学信息科学与工程学院,新疆乌鲁木齐 830046

关键词：

端到端技术语音识别维吾尔语链接时序分类

基金：

国家重点研究与发展计划

项目编号：

2017YFC0820602

出版年：

2024

中文信息学报

中国中文信息学会,中国科学院软件研究所

中文信息学报

CSTPCDCHSSCD北大核心

影响因子：0.8

ISSN：1003-0077

年,卷(期)：2024.38(1)

参考文献量22