摘要
在空中交通管制过程中,无线电陆空通话是最重要的交流工具,但在陆空通话中存在很多用语不规范的问题,给飞行安全带来风险和隐患。语音关键词检测技术能快速定位飞行安全中重点关注的内容,并进行记录,有助于规范管制员和飞行员之间的通话。然而,陆空通话场景与日常对话场景有所不同,因此其语音关键词检测存在如下两个问题:1)通话环境噪声较大,造成语音通话质量不高,因此对语音关键词检测技术提出了抗噪的鲁棒性要求。2)在语音通话中存在多人同时说话,产生重叠语音,重叠语音中检测关键词也存在较大困难。本文针对上述两个问题,研究如何改进现有的模型和算法,针对陆空通话场景进行语音关键词检测。具体工作如下: 针对陆空通话中的噪音问题,本文从提高嵌入提取器的噪音鲁棒性和捕获关键词的上下文信息两方面开展工作:1)提出一种基于残差门控循环神经网络的语音关键词检测模型,该模型充分利用关键词之间上下文信息,提升对关键词检测的准确性。2)在模型训练的过程中,将端到端模型分为嵌入提取器和分类器,从语音嵌入的角度提高模型对噪音的鲁棒性。在嵌入提取器的训练中,基于先前的元组损失函数提出一种新的CN,2+1重损失函数。采用该损失函数能提高嵌入提取器对噪音的鲁棒性,并且其产生的嵌入具有更高的类内相似度和类间相异度。最后,本文构建了陆空通话关键词检测数据集,进行了多组对比实验,结果表明上述方法能显著提高语音关键词检测模型的噪音鲁棒性。 针对陆空通话中的重叠语音问题,本文从对不同尺度特征进行精准分类和改进残差网络两方面开展工作:1)提出一种深度可分离残差胶囊网络。在端到端语音关键词检测模型中引入胶囊网络,用以提高检测的准确度。2)考虑到陆空通话语音关键词检测对实时性的要求,进一步提出采用深度可分离卷积神经网络,通过利用单通道卷积和跨通道卷积的组合取代单纯的跨通道卷积,实现模型压缩。最后,本文基于陆空通话的数据集构建了两重叠语音、三重叠语音、噪声、快速语音数据集,并在这些数据集上进行实验。实验结果表明,上述方法压缩了网络的大小,且显著提高了关键词检测模型对重叠语音的鲁棒性。