基于模型聚类的说话人识别方法研究

熊华乔¹

扫码查看

作者信息

1. 武汉理工大学
折叠

摘要

说话人识别是一种身份认证技术，可以通过计算机来自动实现。说话人识别由于其不仅方便、经济且准确性高，逐渐成为人们常用的身份验证方式，市场应用前景非常广阔。识别正确率和鲁棒性一直都是说话人识别系统的研究重点，混合高斯模型(Gaussian Mixture Model，GMM)由于能很好地描述说话人特征分布情况，被广泛地应用于与文本无关的说话人识别中。随着识别系统语音库中的说话人数目的增多，传统GMM模型的识别时间越来越长，识别速度慢将大大限制说话人识别系统的实用性。本文提出基于模型聚类的说话人识别，在尽量不降低识别性能的情况下，大大提高识别速度。在识别时，发现每次得分较高的说话人模型只有少数几个，因此只需将测试特征矢量与这少部分说话人模型进行匹配，就可确定说话人身份。说话人模型聚类就是利用说话人模型相似的特性，将相近的说话人模型聚类，聚类后为每一类选取类中心和类代表。测试时，首先计算测试特征矢量与类中心之间的欧氏距离或者与类代表之间的对数似然度，选定距离最小或者得分最高的一类，再计算测试特征矢量与选定类中说话人模型之间的对数似然度，最终确定目标说话人。由于可能出现聚类不完全的情况，在测试时选择得分较高的几类构成类的子集合，可以保证识别正确率。实验结果表明:相较于传统的GMM模型，基于模型聚类的说话人识别在聚类数目为100，测试搜索范围为20％时，识别正确率只降低了0.95％，但是平均识别速度却提高了近4倍。为了进一步提高说话人识别系统的识别速度，本文又提出说话人模型聚类和预量化或剪枝相融合的算法。预量化或剪枝是对测试特征矢量进行处理来提高识别速度，属于测试阶段的提速方法;而说话人模型聚类是指在训练阶段结束后，将训练好的说话人模型聚类，属于训练阶段的加速方法。不同阶段的加速方法可以进行融合，进一步提升系统的识别速度。

关键词

模型聚类/说话人/识别方法/欧氏距离/搜索范围

引用本文复制引用

授予学位

硕士

学科专业

通信与信息系统

导师

郑建彬

学位年度

2012

学位授予单位

武汉理工大学

语种

中文

中图分类号

段落导航