摘要
语音合成作为一种根据文本合成语音的技术,已经广泛应用于语音播报、地图导航、人机交互等诸多领域,为社会带来了丰富的经济效益,与此同时,也被不法分子用来进行网络诈骗、攻击声纹识别系统、传播虚假信息影响舆论环境,为网络安全环境治理带来更为严峻的挑战。随着深度学习技术的发展,语音合成技术取得了很大的进展,但是目前主要的研究工作都集中在英文语音合成,基于中文语音的相关研究工作相对较少。在实际应用中,成熟的语音合成系统不仅对合成语音的质量有较高要求,还对合成的速度有一定要求。语音合成模型通常需要基于大量的目标说话人语音数据训练才能合成目标说话人的音频,而在许多现实场景中,人们通常希望提供少量的语音就能够合成目标说话人的语音。本文围绕上述问题,对基于深度学习的端到端中文语音合成进行研究,具体研究内容如下: (1)为了高效地合成较高质量的汉语语音,本文提出了基于非自回归的FastSpeech2模型的端到端中文语音合成方案,并将其声码器替换为HiFi-GAN,同时添加后处理网络进一步处理模型生成的梅尔谱,探索了不同尺度特征以及多尺度特征融合对中文语音合成任务的影响。实验结果表明,使用标准化音素级别特征时,模型能够更稳定地合成高质量的汉语语音。音高预测器和能量预测器的串行相连方式相比于原始并行相连方式更适合音素级别特征。在未对特征进行标准化处理时,并行特征融合方式有效地降低了错误发音和噪声语音的比例,整体上提高了合成语音的质量。后处理网络对合成语音的韵律有所改善。为了进一步提高合成语音的质量,本文为后处理网络模块、方差适配器模块、前馈Transformer模块引入通道注意力机制,指导模型在编码、解码过程与音高、能量、时长信息预测过程以及梅尔谱后处理过程中加强对重要通道特征的关注。实验结果表明,三个模块融合通道注意力模块后,部分语音的韵律得到改善,少部分存在噪声的语音中噪声问题得到缓解,MOS评分有所提升,MCD值有所下降。基于固定大小卷积核的有效通道注意力模块的模型所合成语音的MOS评分和MCD分别达到4.31和6.99,实现了高质量的中文语音的合成。 (2)为了实现个性化中文语音合成,本文对自适应训练方法、基于说话人嵌入层的自适应训练方法、基于声纹识别的说话人编码器方法进行了研究。前两种自适应训练方法基于少量目标说话人语音对模型进行微调即可合成质量和相似度较高的语音。基于声纹识别的说话人编码器方法只需极少的目标说话人语音即可合成质量较高的语音。在未见说话人的语音克隆效果上,基于声纹识别的说话人编码器方法与两种自适应训练方法存在一定差距,基于x-vector的说话人编码器方案略优于基于d-vector的说话人编码器方案;基于前两种自适应训练方法合成的语音的相似度更高且结果更稳定,基于说话人嵌入层的自适应训练方法的合成语音的SMOS评分达到4.30,获得了优于另外两种方法的结果,实现了高相似度的中文语音的合成。