基于多尺度特征融合的单通道多人语音分离研究

徐寅皓¹

扫码查看

作者信息

1. 安徽大学
折叠

摘要

语音是人类社会一种非常便捷且不可缺少的交流方式。特别是处于当前人工智能蓬勃发展的时代，以语音为媒介的人机交互已经成为人类生活中意义重大的一部分。但是机器与人类不同，没有在多种声源混合的环境中提取出特定声源的能力，因此也就无法有效地执行后续的语音识别任务。一个行之有效的方法就是将特定的源信号从混合信号中剥离出来，继而采用语音识别技术去识别其内容。然而分离出来的语音往往不具有较好的可懂度，因此如何提升分离语音的可懂度一直是语音信号处理领域的研究热点。本文主要研究单通道多说话人语音分离方法，主要的研究工作分为以下两个部分: 首先，由于语音信号本质上是一个长时间序列，如果想要有效地从混合语音中分离出准确的目标语音，就需要对语音序列建立长期时间依赖。虽然长短时记忆网络(LongShort-TermMemoryNetwork,LSTM-Net)向来是善于处理序列数据的，但是其由于难以优化的效率和建模过程中的不灵活性而备受诟病。而基于时域卷积网络的卷积时域语音分离网络(ConvTasNet)由于引入了采用深度可分离卷积实现的膨胀卷积，不仅大幅度提升了模型的效率和性能，还保持了相当小的模型尺寸。为了更好地利用语音序列的上下文信息，本文提出了一种基于多尺度特征融合的卷积时域语音分离网络。实验结果表明，这种多尺度特征融合结构可以有效提升模型学习特征信息的能力，但同时也会增加模型的尺寸。其次，虽然ConvTasNet采用膨胀卷积显著增加了上下文窗口的长度，其拥有的感受野还是恒小于序列长度的，因此无法实现语句级别的语音分离任务。为了解决这一问题，本文提出了一种基于双路径方法的多尺度特征融合的Transformer(MSFFT-Net)来处理单通道多说话人分离任务，设计了并行路径的多尺度特征融合结构，不同路径的特征信息可以进行交互，从而进一步丰富特征。实验结果表明，该模型可以得到质量、可懂度和清晰度更高的估计语音，并且在相关的语音数据集上取得了更好的分离效果。

关键词

语音分离/单通道/多尺度特征融合/语音识别/多说话人

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

周健

学位年度

2023

学位授予单位

安徽大学

语种

中文

中图分类号

段落导航