摘要
近年来,随着深度学习技术的快速发展,神经机器翻译成为机器翻译的主流范式。然而,早期神经机器翻译的研究对象主要集中于句子级翻译,忽略了篇章中各个句子之间的语篇现象。随着实际翻译场景的变化,篇章级神经机器翻译受到研究者的广泛关注。但目前关于篇章级神经机器翻译的研究主要侧重于如何构建新的上下文感知模型来捕获句子之间的上下文信息,并没有显式地解决具体的语篇现象,如词汇译文一致性。本文针对词汇译文一致性进行以下三个方面的研究: (1)中英篇章机器翻译词汇译文一致性评测数据集。关于篇章级神经机器翻译词汇译文一致性的研究大多是假设所有的源端重复词汇都应该被翻译一致,但将重复词汇强制翻译一致会损害译文的多样性。在此背景下,本文构建一个人工标注的数据集以评估篇章级神经机器翻译在词汇译文一致性方面的性能。该数据集由310篇双语新闻语料构成,人工标注哪些源端重复词汇应该被翻译一致。为验证该数据集的质量,对多个篇章级神经机器翻译模型进行了测试,实验结果表明,该数据集能够评估篇章级神经机器翻译模型的词汇译文一致性。 (2)基于词链的篇章机器翻译词汇译文一致性建模。近年来各种上下文感知模块的引入,使得篇章级神经机器翻译取得了令人瞩目的进步。受“一个语篇一个翻译”的启发,本文在G-Transformer,一个代表性的篇章级神经机器翻译模型的基础之上,提出一种有效的方法对源端篇章中重复出现的词汇进行建模以缓解词汇翻译不一致问题。具体来说,首先为源端篇章的每个单词制作一条词链。然后,使用词链注意力机制以交换同一词链单词之间的上下文信息,以提升词汇译文一致性。实验结果表明,该方法不仅显著缓解了词汇不一致的问题,而且提高了翻译性能。 (3)面向词汇译文一致性的篇章机器翻译系统。神经机器翻译技术被广泛应用于实际翻译场景,但多数神经机器翻译系统并未考虑具体的语篇现象,如词汇译文一致性等,导致翻译质量不高。为了缓解这个问题,本文使用(2)的研究成果构建了一个篇章级神经机器翻译系统,该系统通过对输入文本的词链信息进行分析和建模以提升译文质量。通过与其他翻译系统的对比,该系统可以提供词汇译文一致性更加优秀的译文。