摘要
在这项研究中,我们探索了用于语音增强的长短期记忆循环神经网络(LSTM-RNN).首先,提出了一种从噪声到清晰语音特征的直接映射的回归LSTM-RNN方法,并被证明比基于深度神经网络(DNN)的回归技术在建模长期声学环境方面更为有效.然后,对建议的基于直接映射的LSTM-RNN和基于理想比率掩码(IRM)的LSTM-RNN进行了全面比较.我们观察到,直接映射框架在低信噪比(SN-R)时可实现更好的语音清晰度,而IRM方法在高SNR时显示出其优越性.因此,为了充分利用这种互补性,设计了一种新颖的多目标联合学习方法.在看不见的噪音下进行的实验表明,所提出的框架可以一致且显着改善语音质量和清晰度的客观指标.