摘要
在日益全球化的世界中,需要理解不同语言的文字,因而翻译在日常生活中扮演着越来越重要的角色。而现今的神经机器翻译系统的翻译质量在很大程度上取决于训练数据的数量。在这一背景下,构建大规模双语平行语料库成为解决该问题的关键方法,为构建高质量翻译系统奠定了基础。但对于可用的平行数据数量不足的许多语言对而言,构建平行语料库往往是一项复杂且昂贵的工作。针对这一问题,我们利用可可英语网站上的中英双语新闻文本,构建了一个名为WCC-EC的中英平行新闻语料库,并对建设语料库过程中遇到的问题进行了阐述并提供了数据增强的解决方法。本文的主要研究内容分为以下3个部分: (1)面向中英神经机器翻译的新闻双语平行语料库构建。构建语料库是神经机器翻译的重要步骤,它为翻译模型提供了必不可少的训练数据。本文详细展示了基于新闻网站构建双语平行语料库的整个过程,并在对所有获取的数据进行筛选和处理后,得到了约341K条中英新闻平行句对,并免费提供了该语料库的下载,但仅限于研究使用。 (2)提出了一种结合段落信息的平行文本查找方案。在以往的研究中,通常直接对双语句子进行匹配以判断它们是否为平行句,因此并未充分利用文本的段落信息。在本文中,我们根据新闻文本段落的特征,提出了一种结合段落信息的匹配方法,以帮助SentenceBERT提高对齐率。通过在段落内部进行匹配,有效地提高了平行句对的匹配准确度,从而优化了后续的数据处理步骤。 (3)提出了一种结合子串信息的数据增强方法。根据标点符号将句子进行分割和重组,这些重组后的句子我们称为子串。实验证明,通过识别出平行的子串来增强平行语料库,可以在不改变神经网络结构的情况下提高神经机器翻译系统的翻译性能。同时这种方法适用于多种语言对,为神经机器翻译技术的进一步发展提供了新的思路。