摘要
语音分离长期以来一直是信号处理界的一个活跃研究课题。它不仅是所有高级语音处理任务的基本问题,而且在智能耳机、增强现实和虚拟现实设备中发挥着重要作用。随着深度神经网络(Deep Neural Network,DNN)研究的发展,各种新的问题定式和模型架构被证明能显著提高分离的性能。在过去几年中,最广泛应用的方法依旧是多通道的语音分离方案,其在强混响和高噪声环境下的优异性能表现远超单通道的语音分离方案。其中基于DNN和多通道波束形成器的神经波束形成器方案能很好地借助DNN强大的拟合能力来估计出语音信号中的统计特征,从而辅助波束形成技术进行语音分离,取得了不错的分离效果。但这类方案仍存在着一些弊端。 本文针对神经波束形成器方案中DNN与波束形成模块无法联合训练的问题,提出一种完全基于DNN的端到端时域多通道波束形成器方案。其主要由空间特征模块、通道间的信息交换模块、深度编码模块和源分离模块组成,采用了一种绕过传统波束形成算法限制的方法,直接利用DNN来估计出波束形成滤波器系数,实现了在时域上的端到端多通道语音分离,并且同时利用了语音的幅度信息和相位信息,并通过循环神经网络和自注意力机制分别对局部信息和全局信息进行建模。实验结果证明,与当前最先进的多通道分离基线网络相比,该方法具有前者三分之一的计算复杂度和1.76 dB信失真比的性能提升。 为了解决目前多通道分离方案计算复杂度高且需要高阶麦克风阵列的问题,本文提出一种利用单通道模型结合多通道特征的多通道分离系统,该方法旨在进一步地降低多通道分离方案的计算复杂度并提升其在低阶麦克风阵列上的性能表现,通过采用独立向量分析算法的预分离结果作为多通道分离特征,替换传统的空间特征,并将其与DNN结合以实现最终的分离任务。经实验证明,该方法的优势在于仅需要两通道的语音数据即可实现良好的分离效果,并且相对于基线方案,该方案的模型大小和计算复杂度分别为前者的十二分之一和八分之一,分离性能也获得了 2.07 dB信失真比的提升。