基于Conformer的端到端自动语音识别研究

范泽平¹

扫码查看

作者信息

1. 广西大学
折叠

摘要

语音识别技术作为现今重要的人机交互技术，成为了人工智能领域中最主要最热门的研究内容之一。新兴的端到端语音识别技术成为了近年来的重点研究领域，其中Conformer模型通过有效的结合Transformer和卷积神经网络，对语音序列有着全局和局部特征的有效建模，实现了现阶段最先进的性能。然而模型存在着复杂的网络结构，使得部署模型进行推理非常困难，且模型中的注意力机制涉及多个大型矩阵相乘，当输入序列长度增加时，其计算开销增大，不利于实际使用。针对存在的未解决问题，本论文在Conformer模型的基础上，对中文普通话的端到端模型进行了深入研究，具体工作和贡献包含如下两个方面：（1）通过研究发现Conformer模型学习到的特征表示中有很高的冗余信息，导致了多余的计算开销，减弱了模型的性能。为解决这一问题，在Conformer的模型架构中引入了下采样结构，设计了新的卷积和注意力混合的下采样层，将1D-scSE网络结构引入到一维特征处理，构建了新模型Sampleformer。通过在中文语音数据集AISHELL-1和Aidatatang_200zh上进行了实验研究，实验结果表明新模型减少了特征向量上的时间冗余信息，避免了时间冗余信息随着网络加深被一次次的建模表征。因此新模型的解码速度比Conformer模型快16.8%，训练时间加快了15.2%，在提高识别速度的同时降低了错误率。与其他主流的中文语音识别模型架构相比也展示出Sampleformer模型具有较强的竞争性和一定的有效性。（2）将常规的密集注意力计算用低分辨率的注意力计算方法近似，提出了多分组注意力，将注意力复杂度从O(n2d)降低到O(n2d?f/g)。通过在模型的不同阶段使用多分组注意力来解决计算不对称性和时间瓶颈问题，使得模型的训练和推理时间加快。此外还将常规的相对位置编码方法引入到全局的输入序列中，使得在计算注意力权值的时候加入了相对位置信息，可以更好的处理长输入序列。在中文数据集AISHELL-1上的相关实验表明，Sampleformer模型在经过多分组注意力后的性能可进一步增强，在推理速度上加快了14%，训练时间减少了13%，且有着相似的识别准确度，很好的平衡了模型的大小和深度及模型性能。

关键词

端到端语音识别/Conformer/Transformer/卷积神经网络/注意力机制

引用本文复制引用

授予学位

硕士

学科专业

电子信息

导师

张学军

学位年度

2024

学位授予单位

广西大学

语种

中文

中图分类号

段落导航