摘要
神经机器翻译(Neural Machine Translation,NMT)方法得益于深度学习优秀的语言理解和生成能力,现阶段在语料资源丰富的翻译任务上取得了显著的成果。由于高资源任务具有数据规模大、句子标注质量高等特点,使得模型在训练过程中所面临的词对齐、短语抽取、翻译映射以及词序调整等问题都能够被有效解决。然而,目前很多机器翻译任务并不具备丰富的平行资源,容易在训练阶段导致过拟合问题,从而影响泛化性。 常见的解决方法如迁移学习等受限于多任务词嵌入共享问题以及负迁移问题导致模型的性能得不到显著提升。而基于预训练方法的知识迁移也存在特征学习方式单一、模型部署困难以及训练-微调不一致的问题。此外,模型训练过程中由于数据稀疏而导致的曝光偏差和低健壮性问题也影响了低资源机器翻译的模型质量。因此,本文提出一种面向多任务知识迁移的低资源神经机器翻译方法,从语料选择、词嵌入映射、训练策略、模型优化等方面对知识迁移进行探究。具体包括以下几个方面: (1)对于多任务词汇共享问题以及负迁移问题,本文提出了一种多语言对齐词嵌入(Multilingual Alignment Word Embedding,MAWE)方法,通过构建一个额外的词嵌入空间来整合多语言词汇,将源语言和目标语言都作为被迁移语言来防止误差累积,采用联合优化方法学习所有语言的词嵌入在新词汇空间中的映射矩阵。此外,本文提出了一种基于Reptile的快速元学习方法代替传统迁移学习方法,通过多轮梯度优化来更新元参数,在保证模型泛化性的同时提升模 型的训练效率。本文在多个低资源语言翻译任务上进行实验,并得出以下结论:采用MAWE方法的机器翻译模型的BLEU分数(Bilingual Evaluation Understudy)相比采用常规跨语言词嵌入的机器翻译模型,在三种低资源任务上分别提升了1.22、0.49和0.16。采用快速Reptile元学习策略的方法相比基线方法,在低资源任务上分别提升0.88、0.77和0.45。 (2)对于基于预训练模型的知识迁移方法中存在的问题,本文提出了如下改进措施:针对特征学习方式单一问题,本文结合语义角色标注等词法信息提出一种预训练词嵌入方法。通过将单词与词法信息融合来提升词嵌入的多维表示能力。对于模型部署困难问题,本文提出一种层次化知识蒸馏方法。通过计算预训练模型的置信度来获得符合要求的输出。对于训练-微调不一致问题,本文还提出基于XLNet的预训练模型,以自回归方式学习上下文特征,并通过交互式注意力机制来融合预训练模型和机器翻译模型,从而提升模型性能。实验表明,当采用XLNet预训练模型和与词法信息相结合的预训练模型时,在相同实验环境下,模型在三个低资源任务上的性能都有所提高。 (3)对于上述训练中存在的曝光偏差和误差累积的问题,本文提出了一种结合神经情景控制的强化学习方法。首先,引入单词级别的奖励来平衡训练过程,同时对经验进行排序并存储高优先级的经验,然后结合N步估值方式抽取高优先级经验并优化模型参数。此外,对于低鲁棒性问题,本文引入基于梯度的字翻转方法来生成对抗样本,通过向量操作来评估每种对抗样本对应的损失,消除具有最大损失的非鲁棒的特征。最终,通过重训练模型来优化性能。实验表明,基于神经情景控制的强化学习方法在经验选择和价值估计方面的效果均高于传统方法,BLEU分数分别提高了5.88、3.81和2.95。对抗样本的引入能够显著提升模型的鲁棒性和抗干扰能力,同时提升了模型的特征识别和预测能力。其中,学习错别字对抗样本和标点对抗样本后模型的性能提升明显,相比未采用对抗样本的基线模型,在三个低资源任务中分别提升了0.9、1.39和0.94。这也充分验证了模型的有效性。