摘要
口音识别(AccentDetection)是指在同一语种下识别不同的区域口音的过程。口音问题是自动语音识别面临的一个严峻挑战。说话人相关的变化包括性别、年龄、口音、健康或疾病以及一些生理变化,这些都是导致语音识别系统性能下降的原因。性别和口音是对语音识别系统效率影响最大的两个特征。口音是人类语言的主要可变因素之一,这对自动语音识别系统的鲁棒性提出了很大的挑战。当自动语音识别系统用一种特定的口音进行训练,然后用另一种口音进行识别时,效率会大大降低。在多口音语音识别系统中,口音识别通常被设置为前端,其任务是在给定的声学信号下,在特定语种中识别不同的区域口音。口音识别可以被视为语种识别(LID)的一个特例,但更具挑战性的是,口音之间的相似性比语种识别更难区分。口音识别类似于语种识别和说话人识别,它们都将可变长度的语音序列分类到话语级后验,以获得口音、说话人或语种标识符。口音识别系统中使用的大多数技术通常来自于语种识别和说话人识别系统。正因为如此,语种识别和说话人识别方向新技术的发展和成熟也不断激励着口音的研究。口音识别作为一种新兴的语音人工智能方向,越来越受到一线研究人员和业界的关注。然而,目前的识别准确率并不理想。在此背景之下,本文开展了对于口音识别技术的研究,通过一系列方法的实现,成功获得了明显的识别准确率的提升。 针对口音识别中存在大量冗余信息的问题,本文采用了注意力机制与对抗学习方法对模型进行了优化。首先,鉴于注意力机制具有特征选择的功能,为了解决口音识别声学特征中关键特征不突出的问题,本文引入了有效的注意力机制,并对多种注意力机制进行了比较和分析。通过模型自适应学习通道和空间维度的不同权重,提高了口音识别的性能。在CommonVoice英语口音数据集上的实验结果表明,引入CBAM注意力模块是有效的,识别准确率相对提升了12.7%,精确度相对提升了17.9%,F1值相对提升了6.98%。其次,受域对抗训练(DAT)的启发,本文设计了一种对抗学习方法,使得模型在编码过程中能够自适应削减口音识别声学特征中的冗余信息,口音识别准确率最多相对提升了3.4%,召回率最多相对提升了16.9%。 针对口音识别数据集中明显存在的Long-Tail现象,本文设计了两种方法来进行优化,分别是树形分类方法和基于转置卷积的数据增强方法。首先,本文提出了一种树形分类方法来缓解数据集中的长尾效应,即数据分布严重不均衡的问题。通过多次二分类替代一次性多分类过程,有效减少了多个类别之间的样本混淆,识别准确率最多相对提升了5.2%。其次,在基于语音合成的数据增强方法的启发下,本文通过转置卷积直接生成口音识别声学特征图来进行数据增强,避免了合成完整语音数据后再提取声学特征的过程,无需在口音识别系统中嵌入语音合成子系统,减少了系统复杂度,口音识别准确率得到了明显的提升。