基于深度学习的多域说话人识别研究

曹书鑫¹

扫码查看

作者信息

1. 山东理工大学
折叠

摘要

发声器官的差异会导致每个人发出的声音都具有可分辨的个性特征，说话人识别是一种用此种特征来确定说话者身份的技术。因其具有数据采集便利、系统易实现等优势，该技术目前已广泛应用于犯罪证据收集、银行证券交易、个人设备声控锁以及智能家居等诸多领域，是一种方便易用的生物识别形式。说话人识别模型按照时间轴可分为传统的说话人识别模型与深度学习说话人识别模型，然而无论是传统理论模型还是深度学习理论模型，说话人识别系统的基本框架不变，可分为信号域、特征域、模型域和得分域，当前针对于深度学习说话人识别模型鲁棒性与多样性的研究也限于这四个方面。虽然当前深度学习理论已成为主流，带动说话人识别深度学习模型有了较好表现，但现有的许多算法依然存在局限性，面对不同的语音数据特性、噪声等复杂的应用环境，有必要对当前说话人识别的模型框架展开研究，弥补当前应用领域的缺点，进一步提高说话人识别系统的鲁棒性。为了增强说话人识别系统在不同应用环境下的表现，使说话人识别系统更好地应用于现实场景，本文主要从信号域、特征域、模型域三个方面入手进行研究，采用多域融合的思想，对系统框架的不足之处进行改进，主要研究工作如下：（1）采用DeepSpeaker说话人识别框架构建了基于ResCNN模型的说话人识别系统，研究了ResCNN模型的原理，并进行实验，分析了ResCNN模型的优点与局限性。（2）语音不同的特征分布限制了ReSCNN模型提取特征的能力。为解决此问题在模型域提出了尺度相关卷积（ScaleCorrelationConvolutionalNeuralNetwork，SCCNN）模型，用不同卷积核平行提取特征，可以更好地提取出语音数据在频率维度下的尺度特征，后接双向长短期记忆网络（BidirectionalLongShortTermMemory，BiLSTM）更好地学习到语音数据在时间维度的表达，最终形成了尺度相关卷积——双向长短期记忆网络（ScaleCorrelationConvolutionalNeuralNetwork-BidirectionalLongShortTermMemory，SCCNN-BiLSTM）模型。该模型能适应不同的语音数据特征分布，更好地提取不同语音数据的特征，丰富在不同分布语音数据下所学到的信息量。在两组数据集上进行模型对比实验结果显示，在纯净语音下，提出的SCCNN-BiLSTM模型比原有ResCNN模型有更好的性能。（3）针对于SCCNN-BiLSTM模型以及其他模型在噪声环境下鲁棒性差的情况，在特征域采用迁移学习的思路，将纯净语音状态下学习到的尺度相关块（ScaleCorrelationBlock，SCBlock）特征迁移至噪声语音状态下的模型训练中，冻结SCBlock参数，训练整个模型，用于生成噪声不变性特征。在信号域选择随机房间脉冲响应（StochasticRoomImpulseResponse，StoRIR）技术加入混响。迁移学习对于当前主流深度学习说话人识别模型具有普适性强、易训练强等特点，可生成特征域噪声不变性特征；StoRIR技术可以通过仅有的几个参数生成混响数据，避免了原有混响生成方法中诸如生成过程繁琐、效果差的情况，通过双域优化结合较好的抗噪效果。在两组数据集上进行模型对比实验与消融实验结果显示，所提出的双域优化方法在加噪的语音环境下有着更好的性能与鲁棒性。

关键词

说话人识别/尺度相关卷积/深度学习/特征提取

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

梁春燕

学位年度

2023

学位授予单位

山东理工大学

语种

中文

中图分类号

段落导航