基于数据增强技术的藏汉机器翻译方法研究

汪超¹

扫码查看

作者信息

1. 西藏大学
折叠

摘要

机器翻译是指将一种人文语言(源语言)通过计算机转换为另一种人文语言(目标语言)的过程，属于自然语言处理中重要领域之一。随着时代发展和科技进步，机器翻译得到了快速发展。对于资源丰富的语言来说，神经机器翻译的性能已经达到了很好的效果，但对于资源匮乏的低资源藏汉神经机器翻译主要面临着起步晚，平行语料库匮乏的问题。因此针对藏汉机器翻译中平行语料匮乏问题，本文主要通过使用数据增强技术来提高藏汉机器翻译模型性能。主要贡献如下：（1）针对低资源语言的机器翻译效果提升问题，本文提出了XLM-R藏汉双语机器翻译模型。（2）通过同义词替换技术构建藏汉伪平行语料库。首先在中文端句子中挑选出低于一定频次的低频词，然后通过word2vec词向量相似度计算得到低频词的同义词并替换原词生成候选目标句，最后再利用KenLM模型对生成的句子进行打分筛选形成最终的藏汉伪平行语料。经实验，同义词替换在Transformer实验中BLEU值最高提升了0.61，在XLM-R实验中BLEU值最高提升了0.58。（3）通过三种不同的回译方法构建藏汉伪平行语料库。经实验，传统回译方法在Transformer、XLM-R实验中性能提升效果并不太明显；但交替训练的回译方法在Transformer实验中BLEU值最高提升了1.57，在XLM-R实验中BLEU值最高提升了1.44；迭代回译方法在Transformer实验中BLEU值最高提升了1.38，在XLM-R实验中BLEU值最高提升了1.17。（4）通过双向训练技术构建藏汉伪平行语料库。首先以“藏语-汉语”→“藏语-汉语+汉语-藏语”的数据形式重构数据集，然后在该数据集上进行藏汉机器翻译的预训练，最后在重构前的数据集上进行正常方向的训练。经实验，双向训练技术在Transformer实验中BLEU值最高提升了0.86，在XLM-R实验中BLEU值最高提升了0.83。

关键词

藏汉机器翻译/回译方法/交替训练/迭代算法/数据增强

引用本文复制引用

授予学位

硕士

学科专业

计算机应用技术

导师

珠杰

学位年度

2023

学位授予单位

西藏大学

语种

中文

中图分类号

段落导航