本公开提供了一种基于波形和频域信息融合网络的声音信号增强方法及装置。该方法包括获取声音训练样本集,其中,声音训练样本集包括多个声音训练样本和对应的标签数据,每个声音训练样本包括训练声音信号和训练幅度谱;将声音训练样本输入初始融合网络模型,输出增强后的训练声音数据,其中,初始融合网络模型为用于融合声音信号时域信息和频域信息的多模态融合网络模型;根据标签数据和增强后的训练声音数据计算损失函数,得到损失结果;根据损失结果迭代地调整初始融合网络模型的网络参数,生成经训练的多模态融合网络模型;将待增强的声音信号输入多模态融合网络模型,输出增强的语音信号。