摘要
语音识别是一种将语音转化成文本的技术。目前,语音识别技术在众多领域,如智能对话、智能家居和物联网等,拥有广泛的应用前景。随着深度学习和注意力机制的快速发展,语音识别技术变得越来越成熟。然而,当前主流的语音识别技术使用自回归解码方式,解码时需要依赖过去的解码结果,这种低效率的解码方式难以满足智能客服、自动驾驶这类业务中严苛的实时率要求。相比之下,非自回归语音识别技术具备并行解码的能力,拥有应对高速解码需求的天然优势,但是准确率和自回归模型相比仍然存在较大的提升潜力。因此,本文立足于非自回归解码方式的语音识别技术,着重研究基于当前最优识别效果的折叠编码器(FoldedEncoder)去构建高效和准确的语音识别模型的方法。 首先,本文提出了卷积折叠编码器(ConvFoldedEncoder)非自回归语音识别模型,在原有的FoldedEncoder模型结构中添加卷积条件(ConvConditioned)模块。ConvFoldedEncoder使用逐点卷积网络对CTC(Connectionist Temporal Classification)损失函数约束下的语音表征进行建模,再使用逐深度卷积网络在时间维度进行局部信息提取,防止有效信息丢失。同时模块添加U-NET结构增强模型所提取的特征,更加有效率地提升模型的学习能力,减少模型预测阶段的错误识别。ConvFoldedEncoder分别使用Transformer和Conformer两种编码器结构在公开数据集Aishell-1和Aidatatang_200zh进行实验,实验结果均表明了它的优秀识别效果。 除此之外,汉语中存在大量发声相近但是意思完全不同的字符,而语音识别系统针对于这点的建模能力不够强大。为了更进一步提升折叠编码器的性能,受多种语音识别中针对于拼音研究的启发,本文在卷积折叠编码器的基础上提出拼音增强卷积折叠编码器(Pinyin Augmented ConvFoldedEncoder,PA-ConvFoldedEncoder)。该方法将文本转化成多种类别的拼音序列,在上述卷积折叠编码器结构基础上引入多种拼音序列来计算损失函数辅助模型训练,并使用一种新的双注意力结构对自注意力机制改进,针对拼音和字符信息分别生成两个注意力矩阵,使得语音识别模型具备在多种角度进行建模的能力,借助拼音信息来提升模型的识别效果。方法改进后的进一步实验表明PA-ConvFoldedEncoder在ConvFoldedEncoder的基础上有更好的提升。 综上,本文提出了两种方法对FoldedEncoder进行改进,对模型中编码器结构对语音特征理解程度不足进行了提升,并将拼音信息引入非自回归模型中,缓解发声相近的字符引发的错误识别。本文的研究成果在诸如智能对话这种需要快速语音识别的领域具有更好的适用性。