首页|基于非线性理论和信息融合的说话人识别

基于非线性理论和信息融合的说话人识别

扫码查看
说话人识别是一种生物特征识别技术,它是指机器通过说话人的语音自动识别出说话人的身份。在信息接入服务安全控制、司法鉴定、金融服务、电子侦听和人机界面智能化等领域这项技术具有良好的应用前景。说话人识别主要经过三个阶段来实现——提取特征、建立说话人模型、判决。特征提取阶段是第一步,也是非常重要的一步。如果不能提取充分反映说话人个性特征的特征量,后两步的优化就很难奏效。现有特征提取方法大都是建立在把语音信号当作短时平稳信号的认识基础上的,这些特征用于说话人识别取得了较好的效果,但是人们在设法进一步提高系统的识别率和鲁棒性时发现了它的局限性。针对这种情况,本文基于当前非线性动力的混沌、分形数学在许多物理现象特别是语音信号处理中的应用,提出采用动力系统模型分析语音信号,抽取混沌、分形特征描述语音信号,并且将这些特征应用于说话人识别,探讨非线性参数区别不同人的声音的有效性,以进一步提高说话人识别的正确识别率。 本文首先深入分析语音信号的混沌机理。由自相关函数确定延迟时间,用虚假近邻法确定嵌入维数,据此重构相空间。根据实验数据计算汉语38个音素的最大Lyapunov指数,其数值均为正值,验证了语音信号的混沌性。在此基础上研究非线性动力学在说话人识别中的应用,取得的创新研究成果可归纳如下: (1)基于Kolomogorov熵和广义维数、关联维数之间的联系,利用GP相关算法实现语音信号关联维数的计算,并得到Kolomogorov熵和广义维数的计算方法,使语音信号的各种非线性参数的计算统一起来。 (2)提出用广义维数Dq为说话人的特征参数,进行说话人识别。广义维数作为多维矢量比其他研究成果中使用的单一的一维分形维数更详细地描述了语音信号的非线性特性。在与文本无关的实验中,对Dq采用马氏距离,并结合其一次差分和二次差分,明显提高了说话人辨认的正确识别率,表明了广义维数作为说话认识别特征的有效性。还进一步讨论短时帧长度对估计Dq的影响,适当增加帧长使识别率得到提高。与采用传统特征参数的说话人识别进行了对比实验,显示出广义维数能够区分不同的说话人,可与传统参数结合起来共同完成识别任务。 (3)将混沌分形参数与传统的线性模型参数融合起来,共同作为说话人的特征。提出两种在特征层将非线性特征与MFCC特征融合的方法:构建高维矢量法的融合和构建复数矢量法的融合实现。在测试时间较短的情况下,两者均有效地改善了系统性能,较大幅度地提高了识别率。 (4)提出两种在决策层将非线性特征与MFCC特征融合的方法:串联和并联融合方法,有效地吸取了各种方法的优点,充分体现了非线性特征对MFCC特征的补充描述,明显提高了说话人识别系统的性能。 本文提出的基于非线性理论的说话人识别方法综合运用了语音信号的混沌、分形特性,在基于文本和文本无关的说话人识别实验中显示出分形参数区分不同的说话人的有效性。结合信息融合技术,在MFCC与非线性特征特征分别为第一级和第二级特征的串联结构中,非线性特征的判决能部分地纠正使用MFCC做出的错误的判决。在测试时间较短的情况下,串联结构比单独采用MFCC提高10%左右,识别率达到98.33%,明显改善了系统的识别性能。本文的研究工作有助于自动说话人识别技术的完善、发展和提高,有利于基于生物特征的身份识别技术的实际应用。

侯丽敏

展开 >

说话人识别 非线性特征 Lyapunov指数 分形维数 信息融合 生物特征识别

博士

通信与信息系统

王朔中

2005

上海大学

中文

TN