摘要
陆空通话是管制员和飞行员之间传递指令和信息交流的主要载体,在飞行过程中保障陆空通话的正确,对于保证飞行安全有着重大的意义。利用语音识别技术,将实际空管语音转化为文字可以辅助监管人员对实际飞行过程进行监管;对噪音过大的语音转换为文字,可以避免管制员和飞行员的反复确认,辅助他们更好的理解陆空通话指令。本文针对实际中文陆空通话这一典型的低资源语音识别问题进行研究,主要工作如下: 第一,提出了Conv-Slide-Conformer陆空通话语音识别模型。模型使用滑动注意力机制代替自注意力机制,提高模型的解码速度,改善了Conformer解码速度较慢的问题。考虑到陆空通话语音内容丰富的特点,模型使用一维卷积模块代替前馈神经网络模块,使模型能够提取出更符合陆空通话语言特点的高维特征。同时,使用数据增强技术提高训练数据量,利用链接时序分类辅助训练,有效缓解了实际陆空通话数据集资源较少的问题。并在解码阶段联合链接时序分类及语言模型进行解码,提高模型的识别性能。在实际陆空通话数据集上,与Conformer、Jasper、DeepSpeech2等先进端到端模型进行对比分析。实验结果表明,本文提出的Conv-Slide-Conformer模型在实际陆空通话数据集上取得了较好的语音识别结果,相较于通用模型,更适用于陆空通话语音识别领域。 第二,针对Conv-Slide-Conformer模型对实际中文陆空通话数据集中类似通用语音部分识别能力不足的问题,在模型训练阶段,论文采用了多种迁移学习方法,在提升模型识别性能的同时,增强其泛化性能。本文主要研究了三种迁移学习方法:参数迁移、多任务学习、联合训练。实验结果表明,在实际中文陆空通话数据集上,引入迁移学习可以使模型更好兼顾标准陆空通话语音和实际陆空通话中混杂的日常对话语音。通过实验对比分析发现,基于联合训练的迁移学习方法更适用于本文低资源实际陆空通话语音识别任务。