摘要
近些年来,随着科学技术和社会的不断发展,语音交互成为机器人人机交互最直接高效、通俗易懂的方式。语音合成(Text-to-Speech,TTS),也称基于文本生成语音,是人机交互中的核心技术之一,引起广大研究人员的关注,渐渐成为各种语音任务领域中的重点研究方向,它在手机语音助手、AI有声小说、情感陪护机器人和语音地图导航等领域具有重要实用性价值。 随着深度学习的快速发展,基于此技术的端到端语音合成方法逐渐成为主流。目前以深度学习为原理的中文语音合成技术,可分为自回归的工作方式和非自回归的工作方式,存在合成语音不稳定、自然度较差、合成速度较慢和个性化语音合成效果不佳的问题,不满足一些实际应用场景。 针对上述所提的问题,本文开展中文语音合成以及中文个性化语音合成的研究工作,研究内容主要分为以下几个方面: 首先,为了解决中文语音合成中不稳定、自然度较差和合成效率低的问题,本文提出了一种端到端的中文语音合成模型F-MelGAN,通过使用后处理网络来对解码器预测的梅尔频谱进行细化,缓解梅尔频谱失真的现象,提高合成语音自然度和稳定性,使用MelGAN作为模型的声码器,并且该模型具有较好的实时性,合成语音的客观评价梅尔倒频谱失真值为9.53,在GPU上生成语音的实时因子为0.155。 其次,由于缺少中文高质量语音数据集,同时为了解决个性化中文语音合成效果不佳的问题,本文提出了一种结合声学条件网络、说话者编码器网络GCNet,并利用一种反馈约束训练方式,实现中文个性化语音定制。实验结果表明,整个模型可以为在训练中出现过的说话者、从未出现在训练过程中的说话者产生与说话者相似度较高的语音信息,同时在GPU上语音合成的实时因子为0.278,满足实时合成语音的要求。 最后,为了验证个性化语音合成模型在人机语音对话场景的实用性,本文利用启明机器人为机器人载体,通过Pytorch搭建了闲聊式个性化语音对话系统,实现了模型的初步落地应用。