基于深度学习的说话人识别技术研究

邵子璇¹

扫码查看

作者信息

1. 重庆邮电大学
折叠

摘要

近年来，随着各种智能终端的普及和使用，传统的身份认证方式已经无法满足人们的需求。随着模式识别等技术的发展，各种生物识别技术被研发出来，说话人识别作为其中的一种，具有采集方便、用户接受程度高、普适性强等优点，目前已在军事领域、公安领域、商业领域等有了大量的应用。说话人识别按任务可分为说话人确认和说话人辨认，本文研究针对文本无关的说话人确认任务，主要工作如下： 1.本文引入了语音识别中常用的SpecAugment数据增强方法，它计算速度快，便于在线增强，在VoxCeleb1上的实验结果表明，SpecAugment对说话人识别任务同样有效。本文对比了SpecAugment和x-vector方式的数据增强，在交叉熵、AM-Softmax、MSE三种损失下，实验结果表明更为复杂的x-vector方式的数据增强对说话人识别任务更为有效。 2.本文基于ResNet34模型，修改其卷积核大小为3x3，调整残差块配置为[3，3，3]，得到了一种复杂度更小的ResNet模型。在交叉熵损失下，该ResNet模型在VoxCeleb1上达到了5.1%的等错误率，优于i-vector、x-vector基准模型，同时，网络结构实验也表明，在参数量一定时，该模型的架构性能较优。 3.本文提出一种基于知识蒸馏技术的训练方法，采用MSE损失约束ResNet说话人特征和i-vector的差异，同时该方法可以视为一种无监督训练神经网络的方法，实验结果表明，采用MSE损失，ResNet模型能在VoxCeleb1上达到了4.7%的等错误率，优于其教师模型i-vector的性能，表明深度神经网络具有更好的泛化能力。另外，本文还提出了基于联合训练的方法，它比模型集成的联合方式更加高效，通过联合损失结合AM-Softmax损失和MSE损失，能够将等错误率进一步降低为3.229%，优于当前大多数模型。并且实验结果还表明，AM-Softmax损失有助于提高模型在余弦打分下的性能，而MSE损失有助于提高模型在PLDA打分下的性能。

关键词

说话人识别/深度学习/i-vector/数据增强/知识蒸馏/联合训练

引用本文复制引用

授予学位

硕士

学科专业

控制科学与工程

导师

李鹏华

学位年度

2021

学位授予单位

重庆邮电大学

语种

中文

中图分类号

段落导航