语音信号的量子特征提取及其说话人识别应用

龙舒杭¹

扫码查看

作者信息

1. 南昌大学
折叠

摘要

语音信号的特征提取对于语音识别和说话人识别等任务至关重要，声学特征和深度特征是两种常用的特征提取方法。声学特征通常采用传统信号处理技术对语音信号进行分析，提取出反映频率和能量特征的参数，如LPC特征、LPCC特征、Fbank特征以及MFCC特征等。深度特征是通过深度学习模型从语音信号中学习得到的高级表征，能够更好地捕捉语音信号中的复杂信息，如深度特征x-vector、xi-vector以及基于SE-Res2Net的嵌入特征。本文重点研究了如何结合量子密度矩阵和量子机器学习来提取量子声学特征和量子深度特征，具体研究如下： 1提出了一种语音信号的量子声学特征提取方法。该方法通过实现语谱图的量子密度矩表示，来提取语谱图量子密度矩阵特征-1(SpectrogramQuantumDensityMatrixFeature-1,SQDMF-1)。然后利用最大似然估计计算SQDMF-1各能级的概率分布，并通过量子密度矩阵表示对SQDMF-1各能级进行重建，得到语谱图量子密度矩阵特征-2(SpectrogramQuantumDensityMatrixFeature-2,SQDMF-2)。实验结果表明，SQDMF-1和SQDMF-2的识别性能和聚类效果略优于传统声学特征中表现最佳的Fbank特征，可以很好地区分说话人的身份信息。 2提出了一种语音信号的量子深度特征提取方法。该方法通过构建说话人编码器模块来提取深度帧级特征，并将其转换为深度量子密度矩阵表示，得到量子密度矩阵深度特征-1(QuantumDensityMatrixDeepFeature-1,QDMDF-1)。然后使用参数量子线路对QDMDF-1进行后处理，并对QDMDF-1各能级进行重建，得到量子密度矩阵深度特征-2(QuantumDensityMatrixDeepFeature-2,QDMDF-2)。实验结果表明：(1)QDMDF-2的识别性能优于QDMDF-1，且都优于基准方法中提取的深度特征；(2)相较于深度段级特征，将量子深度特征提取方法应用于深度帧级特征上，提取得到量子密度矩阵深度特征可以更好的区分说话人的身份信息，对识别性能的提升更显著。

关键词

语音信号/特征提取/说话人识别/深度神经网络/量子特征提取

引用本文复制引用

授予学位

硕士

学科专业

通信工程

导师

张烨/丁杰

学位年度

2024

学位授予单位

南昌大学

语种

中文

中图分类号

段落导航