基于多角度融合和注意力机制的小样本个性化语音合成研究

刘浩¹

扫码查看

作者信息

1. 安徽大学
折叠

摘要

个性化语音合成是语音合成中一种特定的文本转语音服务，旨在使用目标说话人的少量语音数据为目标说话人克隆语音。在日常生活中的多个领域得到了广泛应用。在小样本个性化语音合成中主要使用基于微调多说话人模型的说话人自适应方法。虽然该方法在语音的自然度和说话人相似度方面可以获得较好的性能，但目前仍然存在三个问题:(1)在个性化语音合成系统中如何学习到充分的说话人特征以及如何很好地融合说话人特征。(2)目前的大多数语音合成模型主要使用基于声学模型和声码器的两阶段模型。两阶段的模型不仅会加大模型训练的复杂度和时长，还会导致合成语音质量下降，并且在推理语音时具有较慢的速度。(3)说话人自适应的方法一般需要大量目标说话人的语音数据，但往往这是很难获取的。本文围绕说话人特征提取与融合，改进语音合成模型，降低微调数据量这三个方面进行了研究。论文的主要工作如下: (1)本文第一部分工作是提出了一个个性化语音合成系统TDNN-VITS,该系统主要由说话人编码模块和基于VITS的文本到语音(TTS)模块两部分组成。说话人编码模块使用基于时延神经网络的架构，并引入压缩和激励模块(SqueezeExcitation),用来建模语音通道的相互依赖性，通过使用跳跃连接来聚合和传播不同通道的信息。TTS模型使用完全端到端的VITS模型,可以有效避免两阶段模型带来的训练和合成质量问题。在融合说话人特征方面，使用与音素序列、线性谱以及隐变量相结合的多角度融合的方法，可以充分利用说话人编码模块学习到的说话人特征信息。最终实验表明，TDNN-VITS模型能够有效提高语音自然度和说话人相似度，在微调数据方面只需要使用目标说话人的十条语音(大约一分钟)就可以获得很好的效果。 (2)在第一部分工作的基础上，为了提高说话人编码模块在小样本场景下对目标说话人的泛化能力，引入注意力机制来增强说话人表示的提取，确保可以在小样本情况下更好的学习到说话人特征信息。为了让TTS模块更好的融合说话人表示，我们将说话人表示与条件层归一化结合后融合到TTS模型中。为了降低模型参数量以及加快模型推理速度，使用基于短时傅里叶逆变换的波形构造解码器来替代原模型中基于上采样的解码器，并对TTS模型进行优化。最终提升了语音合成的质量，减少了模型参数数量以及加快了语音推理速度。

关键词

个性化语音合成/说话人/特征提取/多角度融合/注意力机制

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

赵海峰

学位年度

2023

学位授予单位

安徽大学

语种

中文

中图分类号

段落导航