基于生成对抗网络的单通道语音增强

张颂¹

扫码查看

作者信息

1. 南昌大学
折叠

摘要

语音增强是一种可以提高语音质量和可懂度的技术，对于推动通信技术和人工智能行业的发展有着重要意义。近年来，生成对抗网络(GenerativeAdversarialNetwork,GAN)越来越多地被应用于语音增强任务。本文主要研究基于GAN的语音增强算法，论文的主要工作如下： 1.针对标准GAN网络语音增强算法对语音信息利用不充分问题，通过研究深度前馈序列记忆网络(DeepFeed-forwardSequentialMemoryNetworks,DFSMN)的时序建模能力和GAN的对抗训练机制，提出了一种基于残差门控DFSMN的生成对抗网络(RG-DFSMN-GAN)的单通道语音增强算法。该算法的网络结构包含一个生成器和一个判别器，生成器利用卷积神经网络的特征提取能力和残差门控DFSMN的时序建模能力，可对时间序列中的长期依赖性进行建模，有选择性地突出不同语音上下文的显著特征。在训练阶段，通过对生成器和判别器进行对抗训练，该算法可学习带噪语音幅度谱特征到干净语音幅度谱特征的映射。在增强阶段，由生成器生成增强的语音幅度谱，结合带噪语音的相位信息后可得到增强语音，从而实现语音增强。实验表明，该算法可有效地抑制背景噪声，提高语音整体质量。 2.针对现实场景中缺乏大量平行干净-带噪语音对问题，通过研究循环一致生成对抗网络(Cycle-consistentGAN,CycleGAN)，提出了一种基于残差门控DFSMN的循环一致生成对抗网络(RG-DFSMN-CycleGAN)的非平行语音增强算法。该算法的网络结构包含两个生成器和两个判别器，两个生成器均采用含残差门控DFSMN的卷积编码器-解码器结构。通过对抗训练机制，并结合对抗损失、周期一致性损失和身份映射损失联合训练网络，该算法能够在非平行语音数据集(带噪语音和干净语音不匹配)训练下，学习带噪语音幅度谱特征和干净语音幅度谱特征之间的双向映射，在保留语音成分的同时并抑制背景噪声，从而实现语音增强。实验表明，该算法提高了非平行语音数据训练下的语音增强性能。

关键词

语音增强/生成对抗网络/深度前馈序列记忆网络

引用本文复制引用

授予学位

硕士

学科专业

通信工程(含宽带网络、移动通信等)

导师

张烨/丁杰

学位年度

2023

学位授予单位

南昌大学

语种

中文

中图分类号

段落导航