计算机研究与发展2023,Vol.60Issue(7) :1628-1638.DOI:10.7544/issn1000-1239.202220259

基于频率-时间扩张密集网络的语音增强方法

Speech Enhancement Method Based on Frequency-Time Dilated Dense Network

黄翔东 陈红红 甘霖
计算机研究与发展2023,Vol.60Issue(7) :1628-1638.DOI:10.7544/issn1000-1239.202220259

基于频率-时间扩张密集网络的语音增强方法

Speech Enhancement Method Based on Frequency-Time Dilated Dense Network

黄翔东 1陈红红 1甘霖2
扫码查看

作者信息

  • 1. 天津大学电气自动化与信息工程学院 天津 300072
  • 2. 天津大学精密仪器与光电子工程学院 天津 300072
  • 折叠

摘要

含噪条件下的语音增强技术是语音信号领域的重要研究方向之一,该技术对于提升语音视频通话的质量、提高人机交互和语音识别的性能具有重要作用.为此,提出了基于扩张卷积和密集连接的语音增强网络结构,通过学习语音时频谱的频率、时间轴的上下文信息,有效提高了网络的特征表达能力.具体来说,所提结构将扩张卷积融入到时间、频率处理的基础单元中,以确保在频率方向和时间方向上均可获得足够大的感受野,提取出深层语音特征;同时,密集连接被应用到这 2个基础单元的级联结构中,由此可避免多处理模块级联带来的信息丢失,从而增强特征利用效率.实验结果表明所提出的语音增强网络在语音质量客观评估(perceptual evaluation of speech quality,PESQ)和短时客观可懂度(short-time objective intelligibility,STOI)以及各类主观平均意见方面的总体评分,相比于现有的各类语音增强模型,均居于领先水平.此外,所提网络对各种含噪条件的泛化能力也在实验中得以评估.

关键词

语音增强/扩张卷积/密集连接/深度学习/上下文信息

引用本文复制引用

基金项目

国家自然科学基金(62107029)

出版年

2023
计算机研究与发展
中国科学院计算技术研究所 中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心
影响因子:2.649
ISSN:1000-1239
参考文献量1
段落导航相关论文