摘要
语音识别作为人机交互的关键技术之一,在语音输入、语音搜索和智能语音助手等领域得到了广泛应用,它的识别性能与用户使用体验密切相关。近几年端到端语音识别模型的出现,改善了传统模型繁琐的识别过程,降低了语音识别领域的门槛,逐渐成为研究热点。但这种模型依然存在识别性能较低,对终端设备要求苛刻等问题。本文围绕端到端语音识别模型存在的不足,基于Conformer模型进行了以下工作: (1)针对基于Transformer的端到端语音识别模型对局部细微特征的捕捉能力不足以及语言建模能力较弱的缺陷,提出了一种基于Conformer模型结合N-gram语音模型的结构,由Conformer编码器和CTCWFSTsearch解码器组成。不仅增强了模型提取局部细微特征的能力,还提升了模型的语言建模能力。在数据集AISHELL-1、数据集aidatatang_200zh和含有噪声的数据集上进行实验,结果表明该方法可以有效地提升模型识别的准确率,具有一定的先进性,并且在噪声的环境下也有一定的适用性。 (2)针对基于CTC的端到端语音识别模型难以利用语音特征上下文联系的局限性以及基于注意力机制的端到端语音识别模型注意力过于集中的不足,提出了一种基于Conformer模型使用CTC解码器和多头注意力解码器联合解码的模型结构,并结合N-gram语言模型进一步降低CER。在数据集AISHELL-1和数据集aidatatang_200zh上进行实验,结果表明该方法可以进一步提升模型的识别准确率。与其他较新的模型对比,可以看出该模型具有更好的识别性能。 (3)针对基于Conformer的端到端语音识别模型计算复杂度高,在终端设备上难以使用的缺陷,提出了一种基于Conformer模型结构化间隔剪枝和量化相结合的模型压缩方法。对Conformer模块中的卷积部分进行结构化间隔剪枝,并对线性层进行模型量化。在数据集AISHELL-1上进行实验,结果表明当剪枝比例为0.2时,模型CER上升很小,并且推理速度有了明显的提升,还有效缩小了模型的体积,使Conformer模型可以更好的满足实际应用需要。