摘要
巴基斯坦作为中国的友好邻邦和“带路”倡议的重要国家,乌尔都语作为巴基斯坦的官方语言,开展汉乌机器翻译研究具有非常重要的意义。现阶段针对汉乌翻译的研究工作相对较少,并且与乌尔都语相关语料资源较少,可利用的数据资源稀缺。现阶段针对汉乌翻译的工作存在以下问题:训练数据不足导致模型泛化能力较差;由于汉乌语言特性差异性较大导致模型翻译效果不佳。针对上述问题,论文提出了融合乌尔都语语言特性的神经机器翻译方法,具体完成如下工作: (1)汉乌平行语料库的构建:针对汉乌平行语料稀缺的问题,本文利用现有可获取乌尔都语相关语料数据,利用枢轴语言方法构建汉乌伪平行语料,然后利用神经网络模型对伪平行语料数据进行进行平行句对抽取,进一部删选出高质量的平行语料数据。根据提出的方法人工构造了约10万汉乌平行句对,为后续研究提供了基础数据。 (2)融合词性特征的汉乌神经机器翻译方法:由于现有的汉乌平行语料资源稀缺,神经机器翻译方法的难以得到较好的效果。为了在有限的语料资源提升翻译效果,本文引入额外的外部信息来提升模型的翻译性能。词性特征作为本文的主要研究点,采用在词嵌入过程中加入目标端乌尔都语词性标注信息作为输入特征,以此探究利用额外知识提升翻译效果的方法。在此基础上考虑了三种不同的词性特征融合方式,通过实验对比得出,在词嵌入模型中加入词性预测任务的训练能更好的对子词进行表征,对最终的翻译效果提升最为明显,BLEU值提升了0.058。 (3)融合词性序列预测的汉乌神经机器翻译方法:针对汉语与乌尔都语的语言差异性,提出将汉乌语序结构差异融入机器翻译的方法。利用词性序列预测模型学习乌尔都语的语序特征,将预测的词性序列预测结果与翻译模型预测结果相结合,联合预测翻译结果。在现有小规模汉乌数据集上的实验表明,所提方法在数据集上的BLUE值相较于基准模型提升了0.13,取得了较为明显的效果。