本发明提出了一种基于韵律特征的并行语音合成方法及装置、设备、介质,属于语音合成技术领域。该方法包括:首先将待合成语音文本正则化;将所述正则化语音文本并行转换为音素序列和音素级别韵律序列;将所述音素序列和所述音素级别韵律序列利用声学模型预测其梅尔频谱图;将所述梅尔频谱图利用声码器转换为所述待合成语音文本的语音信号。本专利融合自回归合成和非自回归合成的优势,不仅能有效提升语音合成的音质、流畅度、速度和鲁棒性,而且能实现实时的高效语音合成。基于本专利开发的系统可广泛应用于人工智能领域的智能化语音合成,如智能客服、智能音响、语音播报、地图导航和有声读物等人机交互场景。