首页|基于生成对抗网络的单通道语音增强

基于生成对抗网络的单通道语音增强

张颂

基于生成对抗网络的单通道语音增强

张颂1
扫码查看

作者信息

  • 1. 南昌大学
  • 折叠

摘要

语音增强是一种可以提高语音质量和可懂度的技术,对于推动通信技术和人工智能行业的发展有着重要意义。近年来,生成对抗网络(GenerativeAdversarialNetwork,GAN)越来越多地被应用于语音增强任务。本文主要研究基于GAN的语音增强算法,论文的主要工作如下: 1.针对标准GAN网络语音增强算法对语音信息利用不充分问题,通过研究深度前馈序列记忆网络(DeepFeed-forwardSequentialMemoryNetworks,DFSMN)的时序建模能力和GAN的对抗训练机制,提出了一种基于残差门控DFSMN的生成对抗网络(RG-DFSMN-GAN)的单通道语音增强算法。该算法的网络结构包含一个生成器和一个判别器,生成器利用卷积神经网络的特征提取能力和残差门控DFSMN的时序建模能力,可对时间序列中的长期依赖性进行建模,有选择性地突出不同语音上下文的显著特征。在训练阶段,通过对生成器和判别器进行对抗训练,该算法可学习带噪语音幅度谱特征到干净语音幅度谱特征的映射。在增强阶段,由生成器生成增强的语音幅度谱,结合带噪语音的相位信息后可得到增强语音,从而实现语音增强。实验表明,该算法可有效地抑制背景噪声,提高语音整体质量。 2.针对现实场景中缺乏大量平行干净-带噪语音对问题,通过研究循环一致生成对抗网络(Cycle-consistentGAN,CycleGAN),提出了一种基于残差门控DFSMN的循环一致生成对抗网络(RG-DFSMN-CycleGAN)的非平行语音增强算法。该算法的网络结构包含两个生成器和两个判别器,两个生成器均采用含残差门控DFSMN的卷积编码器-解码器结构。通过对抗训练机制,并结合对抗损失、周期一致性损失和身份映射损失联合训练网络,该算法能够在非平行语音数据集(带噪语音和干净语音不匹配)训练下,学习带噪语音幅度谱特征和干净语音幅度谱特征之间的双向映射,在保留语音成分的同时并抑制背景噪声,从而实现语音增强。实验表明,该算法提高了非平行语音数据训练下的语音增强性能。

关键词

语音增强/生成对抗网络/深度前馈序列记忆网络

引用本文复制引用

授予学位

硕士

学科专业

通信工程(含宽带网络、移动通信等)

导师

张烨/丁杰

学位年度

2023

学位授予单位

南昌大学

语种

中文

中图分类号

TN
段落导航相关论文