基于波形和频域信息融合网络的声音信号增强方法及装置

扫码查看

原文链接

NSTL
万方数据

中文摘要：本公开提供了一种基于波形和频域信息融合网络的声音信号增强方法及装置。该方法包括获取声音训练样本集，其中，声音训练样本集包括多个声音训练样本和对应的标签数据，每个声音训练样本包括训练声音信号和训练幅度谱；将声音训练样本输入初始融合网络模型，输出增强后的训练声音数据，其中，初始融合网络模型为用于融合声音信号时域信息和频域信息的多模态融合网络模型；根据标签数据和增强后的训练声音数据计算损失函数，得到损失结果；根据损失结果迭代地调整初始融合网络模型的网络参数，生成经训练的多模态融合网络模型；将待增强的声音信号输入多模态融合网络模型，输出增强的语音信号。

申请号：

CN202210627965.8

公开号：

CN114783457A

专利类型：

发明专利

申请日：

2022-06-01

公开日：

2022-07-22

IPC分类：

G10L21/0216(2013.01)

申请人：

中国科学院半导体研究所

发明人：

郭慧敏、鉴海防、王洪昌、朱文旗、李文昌

主申请人地址：

100083 北京市海淀区清华东路甲35号

国别省市代码：

中国(CN)