面向维汉机器翻译的维吾尔语命名实体识别研究

董瑞¹

扫码查看

作者信息

1. 中国科学院大学
折叠

摘要

维汉机器翻译是维吾尔语自然语言处理的一个研究热点，维吾尔语命名实体的错误翻译是制约维汉机器翻译性能提高的主要瓶颈之一。命名实体可以被分为三大类、七小类，命名实体识别是一个判断文本中包含命名实体的过程，属于自然语言处理中的基础研究，可以有效的提高信息检索、机器翻译、问答系统、文本摘要、阅读理解等自然语言处理任务的性能。对于英语、汉语等热门语言，命名实体识别评测以及评测提供的开放数据集吸引了众多研究者针对命名实体识别进行深入研究。维吾尔语自然语言处理技术起步较晚，命名实体识别的研究工作也不是很多，目前还没有针对维吾尔语命名实体识别的评测，也没有公开可用的标注数据集。本文将针对维吾尔语命名实体识别进行研究，并且将研究结果和维汉机器翻译系统相结合，以提高维汉机器翻译的准确度。针对目前还没有公开可用的维吾尔语命名实体识别标注语料库，本文通过对比不同的标注规范，选择业界比较常用标注编码方法，结合双语平行语料库、维吾尔语形态分析工具和汉语命名实体标注工具提出了一种使用维汉机器翻译辅助自动抽取维吾尔语命名实体的方法。在此基础之上，本文围绕维吾尔语特点展开了以下研究: (1)针对维吾尔语语言特性，提出了适合维吾尔语命名实体识别特点的语言学特征，使用条件随机场进行序列标注训练，通过实验确定了适合维吾尔语命名实体识别任务的特征和特征模板。 (2)针对面向统计机器学习的维吾尔语命名实体识别算法需要大量特征工程问题，本文提出了融合多种语言学特征的神经网络命名实体识别算法，能够有效的进行维吾尔语命名实体识别，同时也进一步验证语言学特征可以很好的用于指导神经网络模型训练。 (3)由于维吾尔语构词灵活，同时在口语文本中含有大量拼写错误。针对由于拼写错误导致的维吾尔语命名实体识别错误，进而导致维汉机器翻译精度下降问题，本文提出了一种基于维汉机器翻译的拼写纠错思想，设计了三种不同的拼写纠错方法，并且在实验中对这三种方法进行了验证。有监督的拼写纠错方法，可以将其应用于双语平行语料的构建过程中，通过提高维汉平行语料库的质量，进而提高维汉机器翻译的精度。无监督的拼写纠错方法，可以很容易的扩展到其他语言，进行拼写纠错。 (4)为了能够将维吾尔语命名实体识别更好的应用于维汉机器翻译中，本文首先提出了一种双语命名实体对齐算法，通过双语平行语料自动抽取双语命名实体对齐词典，使用双语命名实体词典对机器翻译进行指导。其次，针对不在双语命名实体词典中的命名实体单词，本文提出了一种基于字符级机器翻译的方法，直接翻译命名实体。最后，本文提出了一种融入命名实体特征的维汉神经机器翻译系统，通过实验表明，命名实体特征可以有效的指导维汉神经机器翻译系统进行翻译。本文通过上述研究内容，生成了维吾尔语命名实体识别工具，并应用于维汉机器翻译系统中，最终提高了维汉机器翻译的性能。

关键词

命名实体识别/维吾尔语/神经网络/拼写纠错/机器翻译

引用本文复制引用

授予学位

博士

学科专业

计算机应用技术

导师

蒋同海

学位年度

2019

学位授予单位

中国科学院大学

语种

中文

中图分类号

段落导航