摘要
近年来,随着各种智能终端的普及和使用,传统的身份认证方式已经无法满足人们的需求。随着模式识别等技术的发展,各种生物识别技术被研发出来,说话人识别作为其中的一种,具有采集方便、用户接受程度高、普适性强等优点,目前已在军事领域、公安领域、商业领域等有了大量的应用。说话人识别按任务可分为说话人确认和说话人辨认,本文研究针对文本无关的说话人确认任务,主要工作如下: 1.本文引入了语音识别中常用的SpecAugment数据增强方法,它计算速度快,便于在线增强,在VoxCeleb1上的实验结果表明,SpecAugment对说话人识别任务同样有效。本文对比了SpecAugment和x-vector方式的数据增强,在交叉熵、AM-Softmax、MSE三种损失下,实验结果表明更为复杂的x-vector方式的数据增强对说话人识别任务更为有效。 2.本文基于ResNet34模型,修改其卷积核大小为3x3,调整残差块配置为[3,3,3],得到了一种复杂度更小的ResNet模型。在交叉熵损失下,该ResNet模型在VoxCeleb1上达到了5.1%的等错误率,优于i-vector、x-vector基准模型,同时,网络结构实验也表明,在参数量一定时,该模型的架构性能较优。 3.本文提出一种基于知识蒸馏技术的训练方法,采用MSE损失约束ResNet说话人特征和i-vector的差异,同时该方法可以视为一种无监督训练神经网络的方法,实验结果表明,采用MSE损失,ResNet模型能在VoxCeleb1上达到了4.7%的等错误率,优于其教师模型i-vector的性能,表明深度神经网络具有更好的泛化能力。另外,本文还提出了基于联合训练的方法,它比模型集成的联合方式更加高效,通过联合损失结合AM-Softmax损失和MSE损失,能够将等错误率进一步降低为3.229%,优于当前大多数模型。并且实验结果还表明,AM-Softmax损失有助于提高模型在余弦打分下的性能,而MSE损失有助于提高模型在PLDA打分下的性能。