摘要
针对深度网络模型进行端到端语音去噪时存在对语音底层信息表示能力不足以及网络只采用卷积级联的方式造成参数冗余的问题,提出了一种融合残差机制和注意力机制的生成对抗网络去噪模型(Attention Res-UNetGAN).模型在波形域对语音进行去噪,其生成网络为U-Net结构,包含下采样层、中间层和上采样层.中间层为改进的嵌套残差模块(Residual-Residual Block,RRB),是由两块基础残差块进行残差拼接而形成的.对称的下采样层和上采样层之间采用注意力跳连和直接跳连进行连接.在VCTK(Voice Bank corpus)数据集进行去噪后并经PESQ等六种客观语音质量评价指标进行评价,Attention Res-UNetGAN相比原生成对抗网络模型各指标值平均提升了9.13%.