基于知识迁移的机器翻译质量评估方法研究

侯琦¹

扫码查看

作者信息

1. 南京大学
折叠

摘要

随着当今社会经济文化科技的快速发展，机器翻译技术作为连接不同语言之间的桥梁变得至关重要。对于机器翻译系统产生的翻译结果，需要用量化的评判标准评价其翻译质量，这就是机器翻译评测。机器翻译评测已经成为了机器翻译领域一个被广泛研究和讨论的问题。机器翻译质量评估是给定机器翻译系统的源端句子和翻译结果，在不依赖参考译文的情况下，对翻译结果的质量进行评估的机器翻译评测方法。传统的机器翻译质量评估方法通过人工设计的语言学特征等来反映翻译结果的质量，但依赖于语言本身、以及特定的语言学资源和工具。最初引入深度学习技术的机器翻译质量评估方法利用建模能力更强的神经网络模型学习词向量特征、语言模型特征等，但这些特征仍需要人工事先定义好。而目前流行的基于“预测器-评估器”架构的机器翻译质量评估方法，首先使用预测器借助大规模的双语平行语料和机器翻译模型自动学习高维特征表示，然后使用评估器基于学习到的特征进行翻译质量评估。这种方法不需要人工设计特征，同时可以将单向翻译任务中的翻译知识迁移到质量评估任务中。但是该方法只迁移了单向的翻译知识，这使得质量评估模型不能充分建模出源端句子和翻译结果之间互为翻译的关系;而且预测器和评估器是使用平行语料和质量评估任务的数据分开训练的，这使得预测器学习到的特征向量表示并不一定完全适用于质量评估任务本身;此外，一些低资源语言对双语平行语料有限，无法有效对这种需要大规模平行语料的质量评估模型建模，这使得模型具有一定的应用局限性。本文的工作主要在基于“预测器-评估器”架构的机器翻译质量评估方法的研究背景下，探究如何有效地将可用知识迁移到机器翻译质量评估任务中。针对上述问题，本文的主要工作如下: 1.为加强源端句子和翻译结果之间的翻译关系，本文提出了一种融合双向翻译知识的机器翻译质量评估模型。一方面，通过使用两个语向的机器翻译模型，可以起到互相监督的作用，自动学习到信息量更加丰富的有效特征表示;另一方面，通过结合双语向机器翻译模型与质量评估模型，可以将双向翻译任务中的翻译知识迁移到质量评估任务中，建模源端句子和翻译结果之间双向的翻译关系，增强整个机器翻译质量评估模型的表示能力。此外，为了得到更适用于质量评估任务的特征，本文将联合学习的训练方法应用到机器翻译质量评估模型中，使得预测器自动学习到的特征表示更加适用于质量评估任务本身。 2.针对低资源语言对平行语料有限，无法有效对模型建模的问题，本文提出了一种融合单语知识的机器翻译质量评估模型，将更易获取的单语语料和目前效果最好的表示学习模型应用到质量评估任务中。这种通过单语语料预训练好的表示学习模型，可以建模源端句子和翻译结果之间的语义关系，并将大规模的单语知识迁移到质量评估任务中，辅助质量评估模型取得更好的模型性能。本文在WMT2017英德语向的机器翻译质量评估任务数据集上进行实验，实验结果证明了本文提出的机器翻译质量评估模型的有效性，而且可以达到并超过目前最好的质量评估模型。

关键词

机器翻译/质量评估/知识迁移/表示学习

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

黄书剑；商琳

学位年度

2019

学位授予单位

南京大学

语种

中文

中图分类号

段落导航