基于多尺度阶梯时频Conformer GAN的语音增强算法

Speech enhancement algorithm based on multi-scale ladder-type time-frequency Conformer GAN

金玉堂 ¹王以松 ¹王丽会 ¹赵鹏利²

扫码查看

作者信息

1. 公共大数据国家重点实验室(贵州大学),贵阳,550025
2. 许昌电气职业学院,河南许昌 461000
折叠

摘要

针对频率域语音增强算法中因相位混乱产生人工伪影,导致去噪性能受限、语音质量不高的问题,提出一种基于多尺度阶梯型时频Conformer生成对抗网络(MSLTF-CMGAN)的语音增强算法.将语音语谱图的实部、虚部和振幅谱作为输入,生成器首先在多个尺度上利用时间-频率Conformer学习时域和频域的全局及局部特征依赖;其次,利用Mask Decoder分支学习振幅掩码,而Complex Decoder分支则直接学习干净的语谱图,融合这两个Decoder分支的输出可得到重建后的语音;最后,利用指标判别器判别语音的评价指标得分,通过极大极小训练使生成器生成高质量的语音.采用主观评价平均意见得分(MOS)和客观评价指标在公开数据集VoiceBank+Demand上与各类语音增强模型进行对比,结果显示,所提算法的MOS信号失真(CSIG)和MOS噪声失真(CBAK)比目前最先进的方法CMGAN(基于Conformer的指标生成对抗网络语音增强模型)分别提高了0.04和0.07,尽管它的MOS整体语音质量(COVL)和语音质量的感知评估(PESQ)略低于CMGAN,但与其他对比模型相比在多项主客观语音质量评估方面的评分均处于领先水平.

关键词

语音增强/多尺度/Conformer/生成对抗网络/指标判别器/深度学习

Key words

speech enhancement/multi-scale/Conformer/Generative Adversarial Network(GAN)/metric discriminator/deep learning

引用本文复制引用

基金项目

国家自然科学基金(U1836205)

出版年

2023

计算机应用

中国科学院成都计算机应用研究所

计算机应用

CSTPCDCSCD北大核心

影响因子：0.892

ISSN：1001-9081

参考文献量2

段落导航