基于生成对抗网络的音频补偿方法

扫码查看

原文链接

万方数据
维普

中文摘要：为解决音频补偿存在可修复片段长度较短、修复对象局限于高重复性音频和采用语谱图所带来的逆变换失真等问题,提出了针对长语音补偿的新生成对抗网络.新网络模型以原始语音作为输入输出信号,解决传统基于语谱图方法的局限性.首先,采用前后文编解码器作为生成器,提高对信号时域空白间隙周围可用内容的利用率;其次,将语音特征提取模块加入鉴别器,通过学习前后文内容中音高、音素特征,有效提升训练效率和生成质量.结果表明:与现有多个算法进行对比,提出的生成对抗网络具有良好的语音补偿性能,可修复间隙长度达256 ms.进一步通过变速扩展音频长度,针对扩展语音新模型可稳定修复长达500 ms的语音间隙.

外文标题：Speech gap inpainting with generation adversarial network

作者：

王杰、观元升、胡文林

展开 >

作者单位：

广州大学电子与通信工程学院,广东广州 510006

中国铁路设计集团有限公司城市轨道交通数字化建设与测评技术国家工程实验室,天津 300308

关键词：

音频补偿生成对抗网络前后文编解码器语音特征提取

基金：

项目编号：

2021JZ0211974086YJ2021008201904010468

出版年：

2022

陕西师范大学学报(自然科学版)

陕西师范大学

陕西师范大学学报(自然科学版)

CSTPCDCSCD北大核心

影响因子：0.563

ISSN：1672-4291

年,卷(期)：2022.50(6)

被引量1
参考文献量1