基于端到端建模的西里尔哈萨克语语音识别研究

郭挺¹

扫码查看

作者信息

1. 新疆大学
折叠

摘要

深度学习技术推动了语音识别领域的飞速发展。近年来，基于注意力机制的编码器-解码器模型，因其简化了训练流程且提升了识别精确度，成为了研究的主流。哈萨克斯坦是“一带一路”的关键节点和通路，同时西里尔哈萨克语是中西亚语言的典型代表之一，因此研究哈萨克语的语音识别可以更好地促进地区间的互联互通。但是，目前公开的哈萨克语数据集相对较少，同时，哈萨克语数据集中还存在长尾问题，因此导致模型对低频词汇的识别效果不好，在数据驱动的端到端模型中表现不佳。如何在保证准确率的前提下，构建一个轻量化的哈萨克语语音识别模型是一个亟待解决的问题。针对以上问题，本文从不同角度出发，提出了一种轻量、高效的端到端语音识别方法，主要从以下两个方面进行阐述。为了在有限的数据集下提升端到端哈萨克语语音识别的性能，本文使用Conformer作为编码器，同时采用混合CTC/Attention的多任务联合训练方式共享编码器，构建了一个高效的Conformer-Transformer/CTC哈萨克语语音识别模型。为了缓解哈萨克语数据集中存在的长尾问题，本文在Transformer解码器中使用带惩罚因子的Softmax分类函数。其中使用惩罚因子可以减少模型对低频词汇的惩罚，使词汇的分类尽可能的平缓，以此来减缓模型的偏差学习。实验结果显示使用带惩罚因子的分类函数能有效缓解哈萨克语中的长尾问题，降低哈萨克语的词错误率。同时实验结果显示，惩罚因子的数值不易设置过大，且在训练和推理阶段同时使用惩罚因子比只单独在训练或推理阶段设置惩罚因子模型识别效果更好。为了更好实现模型的轻量化，本文不同于以往研究者主要研究压缩模型的前馈层和卷积层，本文主要对多头自注意力模块进行压缩。本文构建了一个LMHSA模块，即低秩多头自注意力模块，且模型不需要重训练，主要通过使用低秩近似压缩算法对模型的多头自注意力模块进行压缩，在训练难度和语音识别准确率基本不变的情况下，尽可能地压缩模型的参数量和存储空间。为了弥补压缩模型后给识别精确度带来的影响，本文使用了带惩罚因子的Softmax交叉熵损失函数来减少模型损失。本文构建的轻量化的端到端哈萨克语语音识别模型，在词错误率和训练难度基本不变的情况下，参数量相比基线模型压缩了7.4％,存储空间相比基线模型减少了13.5MB。

关键词

语音识别/哈萨克语/长尾问题/模型压缩/端到端

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

吾守尔·斯拉木

学位年度

2023

学位授予单位

新疆大学

语种

中文

中图分类号

段落导航