一种融合残差机制和注意力机制的深度语音去噪方法

Speech denoising based on deep learning with residual structure and attention mechanism

李蕊 ¹郭敏 ¹马苗¹

扫码查看

作者信息

1. 陕西师范大学计算机科学学院,陕西西安710119
折叠

摘要

针对深度网络模型进行端到端语音去噪时存在对语音底层信息表示能力不足以及网络只采用卷积级联的方式造成参数冗余的问题,提出了一种融合残差机制和注意力机制的生成对抗网络去噪模型(Attention Res-UNetGAN).模型在波形域对语音进行去噪,其生成网络为U-Net结构,包含下采样层、中间层和上采样层.中间层为改进的嵌套残差模块(Residual-Residual Block,RRB),是由两块基础残差块进行残差拼接而形成的.对称的下采样层和上采样层之间采用注意力跳连和直接跳连进行连接.在VCTK(Voice Bank corpus)数据集进行去噪后并经PESQ等六种客观语音质量评价指标进行评价,Attention Res-UNetGAN相比原生成对抗网络模型各指标值平均提升了9.13％.

关键词

深度学习/语音去噪/生成对抗网络/残差机制/注意力机制

引用本文复制引用

基金项目

国家自然科学基金(61877038)

出版年

2021

光电子·激光

天津理工大学中国光学学会

光电子·激光

CSCD北大核心

影响因子：1.437

ISSN：1005-0086

被引量1

参考文献量16

段落导航