基于麦克风阵列和深度学习的语音增强算法研究

程龙彪¹

扫码查看

作者信息

1. 中国科学院大学
折叠

摘要

得益于语音交流与交互的便捷性与自然性，语音通信系统和智能语音系统已经成为了日常生活中不可或缺的一部分。在真实场景下，期望拾取的语音信号往往被背景噪声和房间混响所干扰，导致了目标语音的质量和可懂度下降，限制了通信系统和语音识别系统的性能，影响了用户的使用体验。因此如何在复杂的声学环境下拾取到高质量的语音信号、降低噪声和混响对麦克风拾取语音的质量和可懂度的影响是语音信号处理领域亟需解决的重要难题。相较于单通道语音增强技术只能利用时频信息而言，麦克风阵列拾取信号中包含的声源空间信息可以进一步提升语音增强算法的性能。传统的多通道语音增强算法需要对信号的导向矢量及二阶统计量进行估计，但是基于信号处理的参数估计方法在非平稳噪声及混响存在时往往不能给出可靠的结果。随着深度学习理论的不断完善以及硬件计算能力的逐步上升，基于神经网络的多通道语音增强方法展现出了更好的性能，然而这类方法仍存在可解释性不强、参数量大等问题。为了提升噪声混响环境下拾取语音信号的质量以及可懂度，本文以深度学习与阵列信号处理理论为基础，研究了全神经网络波束形成框架、探索了声源位置鲁棒估计方法以及用于语音信息高效建模的神经网络结构，实现了复杂声学环境下的语音增强。本文的主要贡献为: 1.提出空间滤波和频谱滤波解耦的神经网络波束形成算法，提升了全神经网络算法对空间信息的利用效率。现有的全神经网络波束形成算法往往直接从多通道拾取数据中估计出目标语音或对应的滤波器系数，然而空间信息在这一过程中如何以及是否充分地发挥了作用仍需要进一步的探讨。针对这一问题本文提出空间滤波和频谱滤波解耦的两阶段多通道语音增强算法，通过利用声源方位构造固定波束以及阻塞矩阵，所提算法显式地对声源空间信息进行了利用，从而提升了全神经网络波束形成器的性能以及可解释性。 2.提出估计准确性函数辅助的声源空间信息估计方法，在复杂声学环境下获得了更为可靠的声源位置估计结果。在噪声和混响较为严重时，传统声源定位算法并不能抽取出直达声的有效信息，导致估计结果可靠性差，从而影响了波束形成算法的性能。针对这一问题，本文借助神经网络估计的每时频点直达声占主导的概率提出导向矢量估计准确性衡量方法，并在这一信息的辅助下对导向矢量相位差进行了恢复。该方法将声源的谱信息引入了定位过程，提升了复杂声学环境下声源位置估计的准确性。 3.提出基于特征特异性卷积的频谱滤波网络，提高了神经网络对语音信息建模的效率。基于神经网络的语音增强方法的性能主要受到网络结构对语音信息建模能力的影响。而常用的卷积神经网络因其参数的时频共享特性导致其在建模语音信息时效率低下。针对这一问题，本文提出特征特异性卷积神经网络，用于在高维空间内从带噪特征中提取语音信息，从而实现语音增强。所提方法通过在每时频位置动态地参数化卷积核提升了卷积网络对语音信息建模的能力。相较于基于传统卷积的语音增强方法，所提出的频谱滤波网络在使用最少参数量的情况下取得了最好的性能。

关键词

语音增强/麦克风阵列/深度学习/声源定位

引用本文复制引用

授予学位

博士

学科专业

信号与信息处理

导师

李军锋

学位年度

2022

学位授予单位

中国科学院大学

语种

中文

中图分类号

段落导航