汉-维神经机器翻译中减少集外词的方法研究

古丽尼尕尔·买合木提¹

扫码查看

作者信息

1. 新疆大学
折叠

摘要

现有的汉维间机器翻译研究工作主要集中在基于统计的方法。最近，神经机器翻译已经在多个语言对上取得了比较可观的结果并且超过了传统的统计机器翻译。但神经机器翻译对词表有严格的限制，导致集外词（out-of-vocabular，OOV）问题。像维吾尔语一样的黏着语，形态变化丰富，理论上有无限制词表，在神经机器翻译中面临更严重的OOV问题。因此，本文着重对基于RNN的汉-维神经机器翻译技术进行研究，旨在减轻其OOV问题。数据方面，本文构建了书面语和口语汉-维平行语料库；在平台方面，本文搭建了基于Moses的统计机器翻译平台和基于Tensorflow的神经机器翻译平台；在模型方面，本文提出了增强记忆的神经机器翻译模型；在实验方面，进行了三组对比实验来验证提出的减少OOV的方法和思路的可行性：（1）进行了基于三种不同模型的汉-维机器翻译实验。分别为：用Moses进行的基于短语的统计机器翻译（PBMT）、用Tensorflow进行的基于注意力机制的神经机器翻译（attention-based NMT）和增强记忆的神经机器翻译（M-NMT）实验。实验BLEU得分为PBMT（30.46）<NMT（32.40）<M-NMT（34.20），并且从PBMT到NMT翻译更为流畅；从NMT到M-NMT翻译的忠实度和流畅性都有提升。OOV的统计为NMT（1590）<M-NMT（1443）<PBMT（569）。表明提出的M-NMT模型不仅有较好的翻译性能同时能够减轻NMT中因为词表限制而加重的OOV问题。（2）进行了基于部分切分数据的汉-维M-NMT实验。为了进一步减少OOV，先对语料中低频维吾尔语词汇进行“词干+词缀”形式的切分。然后在相同参数设置下，进行原始数据和切分数据的汉-维M-NMT对比实验。部分切分方法虽然会增大计算复杂度，要求更大的系统内存，但实验证明，该方法：①减少词汇表大小从；②减轻OOV问题；③提升翻译结果。（3）进行了基于神经机器翻译的相似词替换实验。本文尝试用开源的word2vec工具，基于文中的汉语语料训练词向量。然后用相似词替换测试集中不在词表内的词的方式减少汉-维M-NMT中的OOV。实验结果表明，替换的思路确实有效。

关键词

神经机器翻译/汉-维翻译/集外词/词干词缀/词向量

引用本文复制引用

授予学位

硕士

学科专业

信息与通信工程

导师

艾斯卡尔·艾木都拉

学位年度

2018

学位授予单位

新疆大学

语种

中文

中图分类号

段落导航