数据采集与处理2023,Vol.38Issue(1) :101-110.DOI:10.16337/j.1004-9037.2023.01.008

基于预训练与音素字节对编码的越南语识别

Vietnamese Speech Recognition Based on Pre-training and Phone-Based Byte-Pair Encoding

沈之杰 郭武
数据采集与处理2023,Vol.38Issue(1) :101-110.DOI:10.16337/j.1004-9037.2023.01.008

基于预训练与音素字节对编码的越南语识别

Vietnamese Speech Recognition Based on Pre-training and Phone-Based Byte-Pair Encoding

沈之杰 1郭武1
扫码查看

作者信息

  • 1. 中国科学技术大学电子工程与信息科学系,合肥230027
  • 折叠

摘要

基于无监督预训练技术的wav2vec 2.0在许多低资源语种上获得了良好的性能,成为研究的热点.本文在预训练模型的基础上进行越南语连续语音识别.将语音学信息引入到基于链接时序分类代价函数(Connectionist temporal classification,CTC)的声学建模中,选取音素与 含位置信息的音素作为基础单元.为了平衡建模单元数目以及模型的精细程度,采用字节对编码(Byte-pair encoding,BPE)算法生成音素子词,将上下文信息结合到声学建模过程.实验在美国NIST的BABEL任务低资源的越南语开发集上进行,所提算法相对wav2vec 2.0基线系统有明显改进,识别词错误率由37.3%降低到29.4%.

关键词

低资源语音识别/建模单元/字节对编码/音素子词/预训练/越南语识别

引用本文复制引用

基金项目

国家自然科学基金(U1836219)

出版年

2023
数据采集与处理
中国电子学会 中国仪器仪表学会信号处理学会 中国仪器仪表学会中国物理学会微弱信号检测学会 南京航空航天大学

数据采集与处理

CSTPCDCSCD北大核心
影响因子:0.679
ISSN:1004-9037
浏览量1
被引量1
参考文献量1
段落导航相关论文