摘要
近年来,神经机器翻译迅猛发展,已经成为了主流的机器翻译技术。然而,神经机器翻译需要依赖于大量的平行语料训练,在低资源场景下,由于受平行语料匮乏的影响,神经机器翻译的性能并不理想。因此,低资源神经机器翻译一直是神经机器翻译领域的重大挑战。 多语言神经机器翻译通过引入其他语言的平行训练数据,将高资源语言对的翻译知识迁移到低资源语言对上,一定程度改善了低资源语言对的翻译质量,但也存在错误解码和参数干扰等问题,并且仍然受限于数据匮乏问题。为了进一步提高多语言神经机器翻译在低资源语言对上的翻译质量,本文在多语言翻译模型改进的基础上,再结合低资源语言数据扩充和增强的思路,将枢轴与数据增强技术融入到多语言神经机器翻译模型中。论文主要完成的工作如下: (1)多语言神经机器翻译的数据增强。针对低资源语言之间缺乏平行语料的问题,本文提出了一种多阶段数据增强方法,对低资源语言的平行训练数据进行数量扩充。本方法有机结合了回译法与基于枢轴的数据增强方法,利用基于枢轴的数据增强方法对反向翻译模型进行数据增强,从而提高了由回译法生成的伪平行数据的质量,同时又能利用丰富的单语语料实现伪平行数据的大量扩充。实验结果表明,相较于回译法和基于枢轴的数据增强方法,本文提出的多阶段数据增强方法能为低资源翻译任务带来更大的质量提升。 (2)结合枢轴的多语言神经机器翻译研究。针对低资源语言采用单一枢轴语言难以实现平行语料的有效扩充的问题,本文将多种枢轴语言结合到多语言神经机器翻译中,提出了一种多枢轴神经机器翻译方法。该方法综合考虑了语料规模和语言相似度两个因素,既选用一种语料规模大的枢轴语言,又选用了一种与目标语言相似性高的枢轴语言,并将两种枢轴语言同时融入到多语言神经翻译中。为了充分利用语料规模和语言相似度的优势,本文基于共享的编码器-解码器架构完成多语言翻译模型的构建,使得低资源翻译任务能从多种枢轴语言的知识迁移中获益。实验结果表明,与仅使用一种枢轴语言相比,使用多种枢轴语言能够更有效地提高低资源神经机器翻译的质量。 (3)多语言神经机器翻译系统实现。基于上述研究,构建了一个基于Web平台的多语言神经机器翻译系统。该系统包含Web界面层、中间接口层以及翻译模型层。本文围绕系统结构设计、翻译模型部署、各分层的具体实现等方面展开了详细介绍,并展示了系统的翻译结果。