首页|基于数据增强技术的藏汉机器翻译方法研究

基于数据增强技术的藏汉机器翻译方法研究

汪超

基于数据增强技术的藏汉机器翻译方法研究

汪超1
扫码查看

作者信息

  • 1. 西藏大学
  • 折叠

摘要

机器翻译是指将一种人文语言(源语言)通过计算机转换为另一种人文语言(目标语言)的过程,属于自然语言处理中重要领域之一。随着时代发展和科技进步,机器翻译得到了快速发展。对于资源丰富的语言来说,神经机器翻译的性能已经达到了很好的效果,但对于资源匮乏的低资源藏汉神经机器翻译主要面临着起步晚,平行语料库匮乏的问题。因此针对藏汉机器翻译中平行语料匮乏问题,本文主要通过使用数据增强技术来提高藏汉机器翻译模型性能。主要贡献如下: (1)针对低资源语言的机器翻译效果提升问题,本文提出了XLM-R藏汉双语机器翻译模型。 (2)通过同义词替换技术构建藏汉伪平行语料库。首先在中文端句子中挑选出低于一定频次的低频词,然后通过word2vec词向量相似度计算得到低频词的同义词并替换原词生成候选目标句,最后再利用KenLM模型对生成的句子进行打分筛选形成最终的藏汉伪平行语料。经实验,同义词替换在Transformer实验中BLEU值最高提升了0.61,在XLM-R实验中BLEU值最高提升了0.58。 (3)通过三种不同的回译方法构建藏汉伪平行语料库。经实验,传统回译方法在Transformer、XLM-R实验中性能提升效果并不太明显;但交替训练的回译方法在Transformer实验中BLEU值最高提升了1.57,在XLM-R实验中BLEU值最高提升了1.44;迭代回译方法在Transformer实验中BLEU值最高提升了1.38,在XLM-R实验中BLEU值最高提升了1.17。 (4)通过双向训练技术构建藏汉伪平行语料库。首先以“藏语-汉语”→“藏语-汉语+汉语-藏语”的数据形式重构数据集,然后在该数据集上进行藏汉机器翻译的预训练,最后在重构前的数据集上进行正常方向的训练。经实验,双向训练技术在Transformer实验中BLEU值最高提升了0.86,在XLM-R实验中BLEU值最高提升了0.83。

关键词

藏汉机器翻译/回译方法/交替训练/迭代算法/数据增强

引用本文复制引用

授予学位

硕士

学科专业

计算机应用技术

导师

珠杰

学位年度

2023

学位授予单位

西藏大学

语种

中文

中图分类号

TP
段落导航相关论文