多语言神经机器翻译研究

刘俊鹏¹

扫码查看

作者信息

1. 大连理工大学
折叠

摘要

多语言神经机器翻译旨在利用单个神经机器翻译模型实现多种语言之间的相互翻译，是当前机器翻译领域的研究热点。多语言神经机器翻译不但能够提升低资源语言对的翻译性能，而且能够实现训练阶段未见过的语言对之间的零样本翻译，具有重要的研究意义和应用价值。本文针对多语言神经机器翻译的语言特性知识建模、相似语言的共性知识建模、零样本知识迁移和持续学习问题展开深入研究，主要研究工作包括： (1)针对多语言机器翻译模型对语言特性知识建模能力不足的问题，提出一种基于自适应Transformer的多语言机器翻译模型。将Transformer模型的多头注意力网络和前馈神经网络中各个权重矩阵的参数划分为共享参数和特有参数两部分，分别用于语言共性知识和特性知识的建模；利用输出层网络对两种知识进行融合，并通过调节两种参数的比例实现两种知识的动态融合和平衡。在多个测试集上的实验结果表明，自适应Transformer模型能够显著提升多语言机器翻译和零样本翻译的性能。 (2)针对大规模多语言机器翻译场景下相似语言共性知识建模不充分的问题，提出一种基于跨语言特征融合的多语言机器翻译模型。将每个输入表征映射到不同的高维空间以获得不同的特征表示，利用门函数计算各个特征的融合比例并对所有特征表示进行加权求和，得到最终的融合表征。实验结果表明，跨语言特征融合方法的翻译性能优于现有的语言特性知识建模方法，能够建模不同语言之间的相似性，促进相似语言之间的知识迁移，改善多语言翻译模型的多语言表征空间和跨语言对齐能力。 (3)针对多语言预训练模型的零样本知识迁移能力不足的问题，提出一种正则对比持续训练方法，改善基于多语言预训练模型的零样本翻译性能。以持续学习的方式利用词级和句子级对齐信息对现有多语言预训练模型进行微调，提升编码器的跨语言对齐能力，引入正则损失函数防止灾难性遗忘现象；在微调后的多语言预训练模型基础上，利用两阶段模型训练策略构建零样本翻译模型。实验结果表明，该方法能够显著提升零样本翻译模型的性能，对不同架构的多语言预训练模型具有通用性。 (4)针对多语言机器翻译模型在持续学习时新旧语言对性能不平衡的问题，提出一种基于参数分割的多语言机器翻译模型持续学习方法。利用双重参数重要性评估方法对模型参数在原始语言对和新增语言对上的重要性进行分析，移除对原始语言对重要性较低但对新增语言对重要性较高的参数，将剪枝后的模型用于原始语言对的翻译；对剪枝后的模型进行参数扩展，并通过微调新增参数的方式对新增语言对的翻译进行建模。实验结果表明，采用参数分割的建模方式既能保持原始语言对的翻译性能，又能改善新增语言对的翻译性能，模型总体翻译性能优于其他方法。综上，本文分别基于自适应Transformer架构和跨语言特征融合模块研究了多语言机器翻译模型中的语言知识建模方法，在不同语种规模下提高模型对语言共性知识和差异性知识的抽取和平衡能力；研究了基于多语言预训练模型的零样本翻译方法，利用正则对比持续训练方法缩小不同语言之间的语义鸿沟，提升多语言预训练模型的零样本知识迁移能力；研究了基于参数分割的多语言机器翻译持续学习方法，能够保持模型在旧语言对上的性能，同时突破新语言对的翻译性能瓶颈问题。该研究提升了多语言机器翻译模型的跨语言知识建模和知识迁移能力，达到了改善多语言机器翻译性能的目标。

关键词

多语言神经机器翻译/语言特性融合/预训练模型/持续学习

引用本文复制引用

授予学位

博士

学科专业

计算机应用技术

导师

黄德根

学位年度

2024

学位授予单位

大连理工大学

语种

中文

中图分类号

段落导航