基于深度学习的声纹识别算法研究

徐麟明¹

扫码查看

作者信息

1. 兰州交通大学
折叠

摘要

随着生物识别技术的迅速发展，声纹识别作为一种非接触式的生物识别技术备受关注。声纹识别通过分析个体语音信号的特征来进行身份认证或验证。然而，在实际应用中，声纹识别系统面临着多种挑战。首先，噪声环境下的鲁棒性问题是是一个重要的挑战。在真实场景中，噪声是声纹识别系统面临的常见问题之一。环境噪声可能导致语音信号的失真，从而降低声纹识别系统的准确性和可靠性。因此，提高声纹识别系统在噪声环境下的鲁棒性，对于其在实际应用中的可靠性和稳定性至关重要。其次，轻量化也是需要解决的难题。随着移动智能设备和物联网的普及，对于资源有限的设备，如智能手机、智能手表等，要求声纹识别系统具备轻量级的特性，以保证在这些设备上的高效运行。针对以上问题，本文将围绕轻量化和噪声环境下的鲁棒性展开研究，以探讨如何降低声纹识别系统的计算和存储开销，提高系统的运行效率，从而使声纹识别技术更加适用于各种应用场景，主要工作如下：（1）本文在ECAPA-TDNN算法的基础上进行声纹识别的研究。为了更好地探索说话人识别中的时间关系，并提高算法在复杂声学场景中的泛化性能，本研究在ECAPA-TDNN的基础上，通过将CIFG嵌入到多层特征聚合的残差结构中，使模型能够更好地捕捉语音信号中的上下文信息，这种上下文感知能力的加强使得模型对语音信号中的语境变化更加敏感，有助于提高识别准确度。基于Arcface的改进损失函数Sub-center Arcface被用于选择子中心进行子类区分，保留有利的子中心以增强类内紧凑性并增强网络的鲁棒性。实验结果表明，本研究中改进的ECAPA-TDNN-CIFG模型优于基准模型，实验结果表明本文提出的模型识别准确率达到了91.97%，相较于基线模型提高了2.45%。并且等误差率和最小检测成本函数分别达到了5.13%和0.44%。具有更准确和高效的识别结果。（2）在ECAPA-TDNN-CIFG模型的基础上，使用深度可分离卷积技术设计了一种轻量级神经网络模型Lite-Model。首先，本文将SE-Res2Blocks中的标准卷积替换为深度可分离卷积。深度可分离卷积在减少参数数量的同时保持了模型的性能。其次，我将原本的串联输出结构改为求和输出结构，这样可以进一步降低模型的复杂度，并且简化了模型的计算过程。通过这些改进，Lite-Model在轻量化方向上取得了显著的进步。模型参数为13.75M，相较于ECAPA-TDNN-CIFG模型减少了约33%。而等误差率和识别准确率分别为5.71%以及90.84%。与轻量化前相比只分别降低了0.58%和1.13%。

关键词

声纹识别/轻量级神经网络/深度可分离卷积/鲁棒声纹特征/损失函数

引用本文复制引用

授予学位

硕士

学科专业

信息与通信工程

导师

王春丽

学位年度

2024

学位授予单位

兰州交通大学

语种

中文

中图分类号

段落导航