摘要
神经机器翻译是自然语言处理的重要研究领域之一,被广泛应用于人类生活中。尽管目前的翻译模型已经取得了令人满意的效果,但是在工业界往往需要精准的翻译某些具体词汇(术语)。因此,如何将这些词汇知识加入到翻译模型中,帮助模型寻找更佳的输出序列,成为了一个迫切需要解决的问题。当神经机器翻译模型从通用领域迁移到专业领域的翻译时,往往不能将术语精准的翻译出来,一个当前的主流方案是将预先定义的术语作为词汇约束,以约束的形式将词汇知识加入到神经机器翻译模型中,来确保正确的翻译术语。由于机器翻译在实际应用中对于时效性的要求较高,利用非自回归模型具有较高解码速度的优势,目前引入词汇限制的神经机器翻译主要基于迭代编辑式非自回归模型,然而在迭代编辑式非自回归模型中引入限制性词汇仍然存在以下两个问题。1)训练和解码的不一致问题:在迭代编辑式非自回归模型中引入限制性词汇时,将限制性词汇作为迭代编辑的初始状态再进行迭代编辑,并且限制模型不删除限制性词汇来达到术语的保留。然而这样存在着训练和解码不一致的问题,即解码时是从限制性词汇迭代编辑为完整句子,在训练时则是学习如何从随机删除后的句子迭代编辑为完整句子。2)低频且重要限制性词汇上下文学习不充分的问题:引入词汇限制的非自回归模型不能很好处理低频且重要的词汇,一方面的原因是训练和解码的不一致问题,另一方面是因为低频重要的词汇本身在训练时学习不充分,这种不充分使得模型不能很好的在此基础上进行迭代编辑,并且随着限制性词汇解码约束力度的增大(软约束到硬约束)翻译质量愈加下降。 针对上述两个问题,本文做出了如下主要工作: 1)本文首次将目前主流的引入词汇限制的非自回归模型从模型训练和解码的一致性上进行了理论分析,验证了引入词汇限制的非自回归模型由于训练和解码的不一致问题,不能很好的处理低频且重要限制性词汇。本文还探究了不同词汇属性限制性词汇在迭代编辑式非自回归模型上的表现,证明模型对于低频且重要限制性词汇上下文学习不充分的问题。 2)本文提出了限制性训练的方法来解决训练和限制性解码不一致的问题。并通过实验验证该方法在通用数据集上能够提升术语使用率和翻译质量,在领域数据集能大幅度提升术语使用率和翻译质量,并且不带来单句翻译延迟的提升。 3)本文提出了基于对齐提示的方法,来解决低频且重要限制性词汇上下文学习不充分的问题。通过实验验证该方法能在限制性训练方法基础上,通过引入限制性词汇源端对齐信息的方式进一步提升翻译质量。该方法在通用领域数据集和专业领域数据集均超过了现有的引入词汇限制的翻译方法。同时相比于基线模型,提升的显著程度随着限制性词汇词频的降低,重要性的提升而提升。