基于多级领域信息的机器翻译系统融合研究

刘文斌¹

扫码查看

作者信息

1. 中国科学技术信息研究所
折叠

摘要

全球范围内科技论文、专利和科技报告等科技信息资源的数量呈现出了爆发式增长的态势，越来越多的科技信息服务场景需要应用机器翻译技术来实现跨语言的知识发现与知识服务。高质量的机器翻译技术可以为我国的创新情报服务提供更为全面的国际情报源，有助于借鉴国际上先进的科技创新经验。在跨语言情报分析的实际应用中，垂直领域机器翻译引擎的构建需求不断上升，实现面向垂直领域应用场景的高质量机器翻译是人工智能真正落地的一个重要的达成途径。机器翻译系统受训练语料的规模、质量和领域不均衡的影响，致使低资源领域的翻译性能低下，翻译结果良莠不齐，如何融合不同模型的优势生成更高质量的且面向垂直领域的译文具有很重要的现实意义。因此，本文尝试从数据的领域属性出发，建立领域分类模型，基于数据中的词、短语、句子多个级别的领域信息设计神经网络机制融合不同的机器翻译结果，实现机器翻译系统融合，解决低资源领域机器翻译领域适应和翻译性能问题，为科技文献提供更为优质的面向垂直领域应用场景的机器翻译服务。本文提出基于多级领域信息的机器翻译系统融合方法，包括三部分内容:1）设计了基于BERT-Bi-GRU-Attention-FC的多级领域分类模型，采用BERT和Bi-GRU-Attention-FC的多层神经网络，实现句子、短语、词汇的领域分类，获取源语言文本和目标语言文本的句子、短语、词汇不同级别的领域信息。2）研制了基于Transformer架构的多系统译文融合方法，采用Multi-Encoder的方式编码源语言句子及各个系统的翻译结果，实现Encoder融合和Decoder融合;Encoder融合将多系统译文的隐层信息通过注意力网络转换成新的表征，汇同源语言句子的隐层信息在Encoder端通过门控机制进行融合;Decoder融合将多系统译文的隐层信息和源语言句子的隐层信息在Decoder端进行注意力计算获取融合向量，从而得到更高质量的融合译文。3）提出多领域神经融合方法，综合考虑科技文本的领域特征，细粒度多层级提取源句子和多个翻译系统译文的领域信息，从词汇、短语、句子三个层级将科技文本的领域信息进行整合，将源端、目标端的双重领域特征嵌入句子隐藏层信息中，从领域属性的角度融合多个系统的翻译结果，生成更贴近目标领域的高质量译文，增强特定领域翻译系统的动态适应能力和翻译性能。经过实验验证基于多级领域信息的机器翻译系统融合方法显著地提高了低资源领域的机器翻译效果，有效地缓解了不平衡数据下垂直领域应用场景的机器翻译错译现象。

关键词

神经机器翻译/系统融合/注意力机制/领域信息/神经网络

引用本文复制引用

授予学位

硕士

学科专业

情报学

导师

董诚；何彦青

学位年度

2021

学位授予单位

中国科学技术信息研究所

语种

中文

中图分类号

段落导航