摘要
随着中国与东盟交流的不断深入,东盟各国的经济发展、网络安全和地缘安全态势逐渐引起了中国的重视。为方便研究人员对东盟网络舆情进行研究,需要建立东盟相关的平行语料库。东盟相关的平行语料库可以有效提升东盟各语言机器翻译、词义消歧以及跨语言实体对齐水平,提升小语种语言信息处理能力。 跨语言句子对齐技术是建立东盟相关平行语料库的关键技术。由于东盟地区可供研究的高质量语料资源较少,缺少大量的平行数据进行模型训练;没有公共的评估数据集,难以对模型进行有效的评估;粒度的不同导致了对齐语料所使用的对齐技术也不尽相同。本文针对上述问题,以泰语为重点研究对象,对英语-泰语的句子对齐和段落对齐开展深入研究。论文的主要工作以及研究成果如下: 针对英语-泰语跨语言句子对齐任务需要训练资源多,从网络上难以直接获取足量平行语料进行模型训练的问题,提出两种方法。一种通过跨语言词向量提供先验知识,并结合孪生神经网络的方式来得到跨语言句向量模型,另一种是通过知识蒸馏得到跨语言句向量,最后根据编码得到的句向量相似度判定不同语言的语句语意是否相似,这两种方法都在有限的语料数据下有效提升了句子对齐任务的精度。 段落是多个在语义上有密切联系的句子集合,本文对段落对齐方案中通用的段向量方法做出了改进,提出了一种多特征的段落对齐方法。首先同时考虑段落特征句的选取方式与n-gram拼接,得到候选的特征句集合,再对特征句进行相似度计算,将特征句相似度最高所在的段落视为平行段落。相较于传统的编码方法,该方法有效地提高?1值约一个百分点。