查看更多>>摘要:在基于深度神经网络(deep neural network,DNN)的时频域语音增强方法中,通常将短时傅里叶变换(short-time Fourier transform,STFT)得到的复数域含噪语音时频谱作为DNN输入,以估计纯净语音的幅度和相位.此类方法由于会涉及对复数的运算,计算复杂度和模型参数量较大.针对此问题,本文利用图信号处理(graph signal processing,GSP)理论,提出了基于DNN的图频域语音增强方法.首先,基于语音信号样点间的位置关系定义实对称的邻接矩阵,将语音信号以无向图形式的图信号进行表示,在此基础上利用对应的图傅里叶变换(graph Fourier transform,GFT)提取实数域的语音图频域特征.由于GFT基与邻接矩阵密切相关,该图频域特征隐式地利用了信号样点间的关系,并且可在实数网络中进行处理.然后,构建基于卷积增强transformer(convolution-augmented transformer,conformer)的网络(conformer-based network with graph Fourier transform,GFT-conformer),分别从时间维度和图频率维度捕获图频域特征的局部和全局依赖关系,训练基于掩码的目标,以实现语音增强.最后,考虑到语音和噪声在不同图频率分量上的特性差异,提出可学习图比率掩码(learnable graph ratio mask,LGRM),对不同图频率分量的掩码范围分别进行控制,实现对不同图频率分量的精细化去噪,进一步提升GFT-conformer模型的增强性能.在Voice Bank+DEMAND数据集和Deep Xi数据集上的实验结果表明,所提出的方法在五种常用的评价指标上,优于基于DNN的时域和时频域对比方案.