首页|基于全局注意力机制的CNN-LSTM说话人识别研究

基于全局注意力机制的CNN-LSTM说话人识别研究

扫码查看
目前基于深度学习的说话人识别算法中,大多数算法只考虑了语音的空间域特征或时域特征,且模型训练难度大,准确率较低.针对说话人识别过程中存在的连续性强、空域、时域和频域特征提取不充分的难点,提出一种基于注意力机制(Attention mechanism)的混合卷积神经网络(Convolutional Neural Networks,CNN)和长短期记忆网络(Long Short-Term Memory,LSTM)的说话人识别方法.该方法首先提取数据集Mel频率倒谱系数(Mel Frequency Cepstral Cofficient,MFCC)和 Gammatone 滤波器倒谱系数(Gammatone Frequency Cepstral Coefficients,GFCC);其次采用 CNN 从提取到的声学特征参数中提取高层次的属性特征,将学习到的深度特征参数经转换后送入LSTM中,以充分提取语音信号的时序信息;再次,使用注意力机制赋予LSTM隐藏层不同的权重,以增加关键帧语音对识别结果的贡献度;最后采用Softmax层实现说话人识别的分类.实验结果表明,所提的算法在中文数据集的准确率比CNN和CNN+LSTM模型分别提升10.38%和9.65%;在Librispeech数据集的准确率分别提高5.56%和5.72%.因此,本方法能充分考虑语音时频信息和关键帧的贡献度,进一步提高说话人识别的准确度.
Research on CNN-LSTM Speaker Recognition Based on Global Attention Mechanism

楚宪腾、杨海涛、闫道申、许铭洋、王华朋

展开 >

中国刑事警察学院公安信息与情报学院,辽宁 沈阳 110854

声纹识别 卷积神经网络(CNN) 长短期记忆网络(LSTM) 注意力机制

2017国家重点研发计划辽宁网络安全执法协同创新中心、广州市科技计划司法部司法鉴定重点实验室(司法鉴定科学研究院)开放基金

2017YFC08210002019030004

2022

电声技术
电视电声研究所(中国电子科技集团公司第三研究所)

电声技术

影响因子:0.259
ISSN:1002-8684
年,卷(期):2022.46(2)
  • 1
  • 3