中文信息学报2024,Vol.38Issue(1) :166-172.

基于不同单元的端到端语音识别

End-to-end ASR via Different Acoustic Unit

张岩 艾斯卡尔·艾木都拉 米吉提·阿不里米提
中文信息学报2024,Vol.38Issue(1) :166-172.

基于不同单元的端到端语音识别

End-to-end ASR via Different Acoustic Unit

张岩 1艾斯卡尔·艾木都拉 1米吉提·阿不里米提1
扫码查看

作者信息

  • 1. 新疆大学 信息科学与工程学院,新疆 乌鲁木齐 830046
  • 折叠

摘要

端到端语音识别技术不需要文本和语音序列的强制对齐过程,且比传统语音识别系统有着更为简单直观的结构和更好的适应能力,它不需要精准的发音词典,在资源匮乏语言的语音识别研究中有更好的发展前景.该文在循环神经网络(RNN)和链接时序分类(CTC)的基础上,实现维吾尔语不同粒度的端到端的语音识别系统,且在较少的语料库(THUYG公开语料库)上将该方法和传统的 HMM语音识别框架进行比较.单音素基础上端到端方法的表现超过传统 HMM-GMM框架,CER下降 10.6%,而且经过稍微减少冗余后的以单字符作为建模单元的端到端语音识别系统对比基于三音素的 HMM-GMM系统 CER 下降 2.23%.对于资源匮乏语言,粒度单元的优化方法将是提高性能的下一个研究目标.

Abstract

End-to-end speech recognition technology has a simpler and more intuitive framework with better adapta-bility than traditional speech recognition framework.Based on RNN and CTC,this paper implements an end-to-end speech recognition system of Uyghur language via different acoustic unit.We compare this method with the tradi-tional HMM speech recognition framework in a small corpora(THUYG).The experimental results show that the end-to-end speech recognition system based on mono-phone outperforms the HMM-GMM based on mono-phone and triphone by 10.6%and 2.23%lower CER,respectively.

关键词

端到端技术/语音识别/维吾尔语/链接时序分类

Key words

end-to-end/ASR/Uyghur/cnnectionist temporal classification

引用本文复制引用

基金项目

国家重点研究与发展计划(2017YFC0820602)

出版年

2024
中文信息学报
中国中文信息学会,中国科学院软件研究所

中文信息学报

CSTPCDCSCDCHSSCD北大核心
影响因子:0.8
ISSN:1003-0077
参考文献量22
段落导航相关论文