摘要
语音增强作为语音处理任务的前端处理技术,通过去除含噪语音中的背景噪声,尽量提升语音纯净度,达到提高语音质量和可懂度的目的。在过去的研究中,传统的语音增强算法基于某些先验假设,在低信噪比、非平稳噪声环境下会出现较严重的语音失真。为了解决上述问题,近年来基于深度学习的语音增强算法开始兴起,其能够突破先前传统算法的某些限制,对于不同条件下的语音增强任务具有更好的适应能力。其中,U-Net网络能够保证去噪效果的前提下大幅度减少模型的参数量,得到了研究人员的广泛关注。然而,由于采样和卷积运算的感受域有限,不利于增强语音的恢复,因此很难对整段语音进行建模,限制了模型的进一步发展。 针对上述问题,本文首先提出了一种改进的U-Net网络-ADC-U-Net。其中,为了扩大卷积运算的感受域,尽可能的获取全局语义信息,本文设计了一种新的线性混合空洞卷积块,具体做法是将普通卷积与空洞卷积先后经过归一化和非线性激活处理后再进行线性联合运算。这样既减小由普通卷积带来的信息损失,增大了感受野,获得多尺度的特征信息,又避免了单独使用空洞卷积所造成的语音局部和起止特征信息丢失的问题,进而改善语音失真。此外,为解决语音细节特征在网络最深层进行解码时丢失导致语音质量和可懂度下降的问题,将一种新的双路复合注意力机制应用到U-Net网络中,具体做法是将编码区域和解码深层部分的特征输出进行二次融合,提取了含噪语音更多的上下文信息,为解码模块提供了更深层次和更丰富的语音细节特征信息,有利于增强语音的恢复。 然而,本文在实验中发现,随着网络层数加深,可能会出现梯度消失错过最优点的问题,同时卷积操作增多会导致前后卷积层之间的联系较弱。针对这一问题,本文进而提出了一种基于短时多尺度密集残差模块的端到端语音增强模型ADS-U-Net。短时多尺度密集残差模块通过不同类型的卷积操作和快捷连接的运算,不仅使网络的拟合能力更强,不易错过最优结果,而且为各个卷积层之间建立了更为紧密的联系,使上下文特征信息间的相关性加强,网络能够获取到更多的语音细节信息,有利于最终进一步提升语音的质量和对噪声的抑制能力。 接着,本文采用多个主客观指标对增强语音的质量和可懂度进行了评价。实验结果显示本文所提算法在噪声抑制能力、泛化性等方面均表现出良好的性能,与基线U-Net网络及其他网络模型相比,表现出更好的语音质量和可懂度,证明所提网络有一定的优势。 最后,本文探究了语音增强中的可视化方法,并通过网络模型的可视化分析了所提语音增强模型的不足之处,为后续研究提供了方向。