基于角裕度损失的说话人识别研究

扫码查看

原文链接

NETL
NSTL
万方数据
维普

中文摘要：针对传统身份认证矢量与概率线性判别分析结合的声纹识别模型步骤烦琐、泛化能力较弱等问题,基于自建的普通话唱红歌语音库,设计三个针对文本无关的闭集声纹识别模型,分别为Res-SD、Res-SA和Rep-SA模型.Res-SD模型采用传统的交叉熵损失函数完成训练,Rs-SA和Rep-SA模型采用可以在特征表达的角度空间中最大化分类界限的附加角裕度损失函数完成训练.实验结果验证了所提出的三个模型针对文本无关的闭集识别任务是有效的.在参数量和准确性方面,Rep-SA模型更适合在红歌数据库上学习到具有类别区分性的唱歌者特征.

外文标题：Research on Speaker Recognition Based on Angular Margin Loss

作者：

孟飞宇

展开 >

作者单位：

中国刑事警察学院,辽宁沈阳 110854

关键词：

声纹识别闭集 Res-SD Res-SA Rep-SA

基金：

中国刑事警察学院研究生创新能力提升项目

项目编号：

2021YCYB46

出版年：

2022

DOI：

10.16311/j.audioe.2022.10.005

电声技术

电视电声研究所(中国电子科技集团公司第三研究所)

电声技术

影响因子：0.259

ISSN：1002-8684

年,卷(期)：2022.46(10)

参考文献量2