摘要
蒙古文命名实体识别是在给定文本中识别特定类别名词的过程。它是蒙古文自然语言处理的重要基础任务,能够提升机器翻译、信息检索、文本摘要、阅读理解等任务的性能,更是构建知识图谱、问答系统的关键基础步骤之一。然而,蒙古文命名实体的研究工作起步较晚、相关工作较少,并且蒙古文自身构词复杂,也没有对应的蒙古文命名实体标注规范、标注集,制约了蒙古文信息化、智能化的进一步发展。因此,本文将开展蒙古文命名实体识别研究。 针对蒙古文命名实体研究基础薄弱,缺乏语料的现状,本文收集并整理了蒙古文语料,制定了蒙古文命名实体标注规范,建立了标注平台,形成了蒙古文命名实体人工标注语料库。在此基础上,本文围绕如何利用蒙古文的构词特点来提高命名实体系统的性能,如何从语料中自动学习词汇化语义表示,如何学习实体不同层次的知识,以及如何利用外部语言知识四个方面展开研究。旨在解决蒙古文语料缺乏,训练数据比较稀疏,利用外部知识源困难等关键科学问题。主要研究内容包括: (1)针对蒙古文复杂的构词结构,本文提出了基于切分的多特征命名实体识别方法。该方法构造了多组不同特征,包括上下文特征,词性特征,语义特性,音节特征等。不同于英语,蒙古语单词由词干连接不同后缀组成,因此本文将蒙古文结尾后缀作为独立单位进行训练,并采用条件随机场模型作为分类器比较了不同后缀处理方法对系统性能的影响。最后,实验确定了最优蒙古文结尾后缀处理方法与特征组合。 (2)针对特征构造所需时间长,人工成本高等问题,本文采用了深度神经网络框架,并提出了基于蒙古文词素向量的命名实体识别方法。该方法结合蒙古文的构词特点,自动从大规模无标注语料中学习到蒙古文的词素向量,再输入到循环神经网络中,最后融合条件随机场进行标注序列的联合解码。该方法避免了特征构造与寻优的漫长过程,能够学习到词素间的语义关系和标记间的依赖关系。实验结果表明,输入蒙古文词素向量的循环神经网络模型性能优于输入单词向量,并且结合条件随机场模型的联合解码能够有效地提升系统的分类性能。 (3)为了能够学习词素内外部的信息,本文提出了融入蒙古文字符向量和词素语言模型的改进神经网络模型。该模型可以学习到字符、词素、语言模型等不同层面的知识,帮助模型进行分类。蒙古文字符用来描述蒙古文词素内部字母的上下文关系,语言模型能描述词素外部间的上下文关系。实验结果表明,融合字符向量和语言模型的神经网络方法能够有效地提升系统性能。 (4)西里尔蒙古文是以西里尔字母书写的蒙古文,与传统蒙古文有相同的语法以及相似的发音。为了解决传统蒙古文语料缺乏的问题,利用好相近语言的知识,本文建立了西里尔蒙古文命名实体人工标注语料,采用迁移学习思想,将西里尔蒙古文命名实体识别中的神经网络参数,蕴含的语言知识迁移到传统蒙古文中,使得模型借鉴到西里尔蒙古文中的知识。这种深度迁移方法使得蒙古文能够从其他相近语言学习知识,丰富了该方法在大数据背景下的扩充性、可用性。实验结果表明,通过迁移学习到的相关语言知识能够帮助系统提升性能。 综上所述,本文通过研究以上四个方面的内容,使得蒙古文命名实体系统的性能达到可用水平,为蒙古文上层应用系统提供基础支撑服务。同时,本文的工作也将促进蒙古文自然语言处理相关领域的研究与发展,为促进少数民族地区人工智能与大数据的发展贡献力量,还对其他黏着语命名实体研究有一定的启示作用。