基于分数阶傅里叶变换和K-均值聚类的重放语音检测算法

扫码查看

原文链接

NETL
NSTL
万方数据
维普

中文摘要：重放语音欺骗攻击是自动说话人验证系统(Automatic Speaker Verification,ASV)面临的严重威胁.目前,基于常数Q变换倒谱系数(Constant Q Cepstral Coefficients,CQCC)和梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)的检测模型存在检测性能不理想、泛化能力差等问题.对此,提出一种基于分数阶傅里叶变换(Fractional Fourier Transformation,FrFT)和K-均值聚类的无监督重放语音检测模型.首先利用FrFT将语音信号转换至分数域,然后提取分数域双谱特征构成特征向量,并利用K-均值聚类算法进行聚类分析,实现重放语音检测.基于ASVspoof2019公开数据集的试验结果表明,所提方法相对于CQCC和MFCC两种传统方法在t-DCF和EER两项指标方面分别提升超过6.52％和7.76％,并且作为一种无监督模型,不需要训练样本即可实现检测,在少样本情况下仍然能够获得较高的检测性能,泛化能力更强.

外文标题：Replay Speech Detection Algorithm Based on Fractional Fourier Transform and K-Means

作者：

盛春明

展开 >

作者单位：

深圳技师学院,广东深圳 518000

关键词：

分数阶傅里叶变换重放语音检测双谱特征聚类分析

出版年：

2022

DOI：

10.16311/j.audioe.2022.08.032