基于DNN与MultiResU_Net的语音增强方法研究

刘春东¹

扫码查看

作者信息

1. 哈尔滨理工大学
折叠

摘要

语音增强作为语音信号前端算法，主要用于去除语音信号中的背景噪声，提高语音的清晰度以及语音识别的准确度。语音增强技术在助听器、智慧医疗、智能家居等领域有重要应用。深度学习的非线性拟合能力比较强大，因此逐渐取代传统算法并被应用到语音增强中。然而当信噪比较低时，基于深度学习的语音增强算法依然面临着巨大挑战，语音增强效果仍有提升空间，本文基于掩蔽和映射法的语音增强技术，对深度神经网络(Deep Neural Network，DNN)与分辨率残差U型网络(Multiresolution Residual U Network，MultiResU_ Net)进行改进，对带噪语音信号进行增强处理。主要研究工作如下: 针对低信噪比提出包含语音局部和全局特性的多分辨率耳蜗特征(Multi-Resolution Cochleagram，MRCG)，已被论证是当前最优的语音特征。为了挖掘低信噪比环境下的较清晰语音特性，采用短时谱幅度最小均方误差估计对MRCG中全局特征做降噪处理，进而提出改进MRCG，并将其用于分析时频域的语音特征。本文以改进MRCG为输入特征，以跳变连接的深度神经网络(Skip Connections-DNN，Skip-DNN)为训练网络，为提高网络训练效果以取对数的方式改进源失真比(Source-to-Distortion Ratio，SDR)，并以改进SDR为损失函数，以理想比率掩蔽为训练目标，建立语音增强模型;在不同信噪比环境下，利用LibriSpeechASR语料库中语音数据，对比分析主流特征组合、多分辨率听觉倒谱系数以及改进MRCG作为Skip-DNN输入时的语音增强效果;研究均方误差、SDR和改进SDR作为损失函数对网络训练的影响。研究表明，基于改进MRCG和Skip-DNN的语音增强模型的效果最好;当改进SDR作为基于改进MRCG和Skip-DNN语音增强模型的损失函数时，客观语音评价得分较高。为进一步提高低信噪比环境中语音增强效果，将语音信号经短时傅立叶变换后得到的时频谱图作为网络输入和训练目标，改进MultiResU_Net，采用亚像素卷积层改进上采样过程以恢复网络的细节、将残差路径与解码器端上采样的输出特征以混合通道的方式进行重排以此提高信息融合的能力，建立改进MultiResU_Net语音增强模型。在不同信噪比环境下，利用LibriSpeechASR语料库中语音数据，研究在不同网络深度和不同窗口尺寸时，改进MultiResU_Net模型的语音增强效果;探讨基于传统MultiResU_Net、全卷积神经网络、U型网络以及改进MultiResU_Net语音增强模型的增强效果。研究表明，当深度为9，窗口尺寸为3×5时，改进MultiResU_Net模型最优;不同信噪比条件下，改进MultiResU_Net语音增强模型比其他模型评价指标得分高，由此可知，本文提出的改进MultiResU_Net语音增强模型的增强效果较好，此方法尤其适用于低信噪比下的语音增强。

关键词

语音增强/深层神经网络/低信噪比

引用本文复制引用

授予学位

硕士

学科专业

电子与通信工程

导师

兰朝凤

学位年度

2021

学位授予单位

哈尔滨理工大学

语种

中文

中图分类号

段落导航