首页期刊导航|信号处理
期刊信息/Journal information
信号处理
信号处理

谢维信

月刊

1003-0530

010-64010656;64034443-3004

100009

北京鼓楼西大街41号

信号处理/Journal Signal ProcessingCSCD北大核心CSTPCD
正式出版
收录年代

    基于全卷积神经网络多任务学习的时域语音分离

    孙林慧王春艳张蒙
    2228-2237页
    查看更多>>摘要:基于深度神经网络时频掩码进行语音分离时,目标信号相位一般采用混合信号的相位谱,且对性别组合缺乏针对性处理,这导致分离语音的质量不佳.针对该问题,本文提出一种基于全卷积神经网络联合性别组合检测(Fully Convolutional Neural Network-Gender Combination Detection,FCN-GCD)多任务学习的时域语音分离方法.该方法首先在语音分离支路构建全卷积神经网络,该网络的输入为时域两人混合语音信号,输出为目标讲话者的纯净语音信号,运用卷积编码器和反卷积解码器对特征进行压缩和重建,实现端到端的语音分离.其次将混合语音性别组合检测任务整合到语音分离网络中,在两个任务联合约束下获取辅助信息特征和语音分离特征,并将这些深度特征相结合来提升语音分离质量.该FCN-GCD方法是一种时域语音分离方法,不需要进行相位恢复和频域到时域的重构,相比频域处理方法,该处理过程简单,从而提高了运算效率.另外,该方法从混合语音性别组合检测任务中提取有效的辅助信息特征,利用联合特征实现了更有效的语音分离.实验结果表明,与单任务的语音分离方法相比,本文所提出的FCN-GCD方法在男男、女女和男女三种性别组合下均有效提高了语音质量,在语音质量感知评估(Perceptual Evaluation of Speech Quality,PESQ)、短时客观可懂度(Short-Time Objective Intelligibility,STOI)、信号干扰比(Signal-to-Interference Ratio,SIR)、信号失真比(Signal-to-Distortion Ratio,SDR)和信号伪像比(Signal-to-Artifact Ratio,SAR)评价指标上均获得更佳的表现.

    深度神经网络语音分离全卷积神经网络特征融合多任务学习

    面向噪声和声学混响场景下的语音增强

    解元邹涛余锦视孙为军...
    2238-2248页
    查看更多>>摘要:语音增强的目的是从受噪声干扰的语音信号中提取纯净的目标语音信号.然而,在混响环境下接收到的声源信号是目标源信号和许多延迟与衰减的反射的集合,这大大降低了目标语音的质量和可懂度.为了探索带噪声和声学混响场景下的语音增强问题,本文在目标语音和声学环境的先验信息未知的情况下,设计一种基于盲信号提取的无监督的多通道语音增强方法.首先,将后期反射产生的混响视为附加的、不相关的噪声分量,构建一个带噪声和声学混响的语音增强新模型,使用原始-对偶分裂算法,通过时频掩码对目标语音信号进行隐式建模.然后,利用倒谱阈值法增强目标语音信号的谐波结构,使得含噪声混响语音信号中的目标语音信号被增强,并且具有比目标语音信号小能量的其他分量被衰减.最后,由于每个信道上的干扰信号都被衰减,使得在每次迭代中提取的目标语音信号具有更好的排他性和非混合性,从而设计一种自适应时频类维纳掩蔽逆滤波器实现去混响去噪声的增强效果.实验部分,分别对噪声和混响条件下的实际语音信号进行了去混响去噪声的性能评估和分析,实验结果表明,所提算法具有很好的去混响去噪声的性能,同时对比于几种比较流行的多通道语音增强算法,验证了本文算法的增强效果更优越.

    语音增强盲信号提取声学混响干扰语音消除逆滤波

    基于可学习图比率掩码估计的图频域语音增强方法

    王景润郭海燕王婷婷杨震...
    2249-2260页
    查看更多>>摘要:在基于深度神经网络(deep neural network,DNN)的时频域语音增强方法中,通常将短时傅里叶变换(short-time Fourier transform,STFT)得到的复数域含噪语音时频谱作为DNN输入,以估计纯净语音的幅度和相位.此类方法由于会涉及对复数的运算,计算复杂度和模型参数量较大.针对此问题,本文利用图信号处理(graph signal processing,GSP)理论,提出了基于DNN的图频域语音增强方法.首先,基于语音信号样点间的位置关系定义实对称的邻接矩阵,将语音信号以无向图形式的图信号进行表示,在此基础上利用对应的图傅里叶变换(graph Fourier transform,GFT)提取实数域的语音图频域特征.由于GFT基与邻接矩阵密切相关,该图频域特征隐式地利用了信号样点间的关系,并且可在实数网络中进行处理.然后,构建基于卷积增强transformer(convolution-augmented transformer,conformer)的网络(conformer-based network with graph Fourier transform,GFT-conformer),分别从时间维度和图频率维度捕获图频域特征的局部和全局依赖关系,训练基于掩码的目标,以实现语音增强.最后,考虑到语音和噪声在不同图频率分量上的特性差异,提出可学习图比率掩码(learnable graph ratio mask,LGRM),对不同图频率分量的掩码范围分别进行控制,实现对不同图频率分量的精细化去噪,进一步提升GFT-conformer模型的增强性能.在Voice Bank+DEMAND数据集和Deep Xi数据集上的实验结果表明,所提出的方法在五种常用的评价指标上,优于基于DNN的时域和时频域对比方案.

    深度神经网络语音增强图傅里叶变换

    基于神经网络的低码率语音编码技术研究综述

    王晶徐亮陈晓娇谢湘...
    2261-2280页
    查看更多>>摘要:语音编码算法在无线或网络语音的传输过程中具有重要作用,在降低语音编码速率的同时确保编码语音质量不变甚至提升一直是设计者们追求的核心目标.然而,传统语音编解码器在较低速率下经过压缩后的语音音质、可懂度和有效带宽均有明显下降,极大程度上影响了用户的听觉体验.随着人工智能技术的不断进步,深度神经网络模型在语音处理任务中的应用也日益广泛,其性能普遍远超传统方法.在语音编解码领域,近年来很多研究也开始关注如何将神经网络模块融入编解码器,以实现更高效的语音传输,旨在低码率下实现传统方案无法达到的性能,为无线或网络语音传输提供新的解决方案.本文对基于神经网络的低码率语音编解码算法进行全面的整理分析和分类汇总,详细介绍了使用传统方法与神经网络结合的混合式编解码器以及使用编码器-解码器联合训练的端到端编解码器的发展历程、原理、特点及评价指标,并总结了这些方法的优势与不足.最后,结合当前各类编解码器的发展状况,对低速率语音编解码器的未来进行展望.基于神经网络的低码率语音编码技术有望解决实际通话中传输带宽受限时通话质量不佳的问题,为实时语音通信的进一步发展提供有力支持,并为未来压缩编码的研究方向提供新的思路.

    语音编码低码率神经网络混合式编码器端到端编码器

    2024年总目次

    2281-2296页