基于深度学习的说话人识别技术研究

吉昕冉¹

扫码查看

作者信息

1. 武汉工程大学
折叠

摘要

随着生物识别技术的研究价值逐步提高，人们对于说话人识别技术的重视程度也日趋放大，语音助手、电话银行、门禁安全系统等相关用于验明说话人身份的需求逐渐被提及。伴随着科技的发展，使用深度学习的说话人识别技术在远程说话人身份验证、司法侦查、智能手机与穿戴设备的安全保护等方面具有广阔的应用潜力，逐步被市场需要并重视。在为用户提供更加方便高效体验的同时，如何提高说话人身份验证的准确性，辨认出待识别语音片段是否为已经录入语音数据库中目标说话人的语音成为了说话人识别技术中的核心重难点。论文提出了基于TDNN时延神经网络的改进网络，改进后的模型能够增强说话人识别系统的模型识别能力。具体研究了TDNN时延神经网络及网络训练出的模型效果，通过60个轮次的训练，得到每个轮次对应的60个模型，对训练过程中每一个轮次的训练结果进行数据记录，更好观察模型的识别能力跟随训练的变化情况，对每一轮次的训练结果进行实验测试，得到模型评价指标的数值。引入人脸识别中的ArcFace损失函数对模型的损失函数进行优化，其他条件保持不变，用于测试的录入集、验证集也保持相等，测试不同损失函数对于模型识别能力的影响。更改损失函数之后，EER、minDCF检验指标均有所下降。之后将注意力机制模块加入改进了损失函数的TDNN神经网络，在训练过程中同样对训练的轮次结果进行模型识别能力测试，测试结果显示模型性能得到了加强，评价指标数值均得到了有效降低。最后，本系统通过Tkinter进行用户端操作界面的设计，并将在改进过程中评价指标最好的模型及对应参数进行在相同语音片段实时录音下的说话人对比、说话人辨认测试。结果显示，在说话人识别系统用户端操作测试下的数据可以看出在实际使用中，模型的改进能够得到识别结果的优化，具有较高的应用价值。

关键词

说话人识别/TDNN神经网络/注意力机制/损失函数

引用本文复制引用

授予学位

硕士

学科专业

电子信息

导师

王利恒/高永利

学位年度

2024

学位授予单位

武汉工程大学

语种

中文

中图分类号

段落导航