摘要
任何语言都是具有歧义性的,歧义词普遍存在于自然语言文本中,一个词汇往往会包含多种词义,而词义消歧任务是通过从词语所存在的上下文语境识别出词语中具体的词义,进而确定整段上下文语义的过程。这对人们来说很容易,人们通常可以根据上下文信息准确而快速地判断出某个歧义词的词义从而理解整句话的意思,但这对计算机来说却是一个极大的挑战。词义消歧作为自然语言处理中的基础研究,在很多研究领域中都占有重要的地位,直接关系到机器翻译、信息检索、文本分类、文本生成、情绪识别等上层自然语言处理领域研究的效果。因此,如何快速而准确地识别歧义词是一个亟待解决的具有重大意义的研究问题。然而,现如今的词义消歧模型大多都注重对待消歧词的上下文信息的处理,从而忽略待消歧词的相关外部知识信息,人们之所以能够快速而准确地分辨出待消歧词的具体词义,不仅仅依靠的是待消歧词的上下文,还依靠人们日常所积累的外部知识,因此,为了有效地提高词义消歧模型的消歧效果,可以加入外部知识来辅助消歧。 为了解决词义消歧过程中计算机知识数据匮乏的问题,本文首先构建了中文知识库,整合了三部可获取的中文字词典数据,并仿照WordNet英文知识库的架构构建概念语义网络,并以此为基础,构建了基于知识的中文词义消歧模型Bert-Sense模型,充分融合了中文外部知识,具体的研究和工作内容如下: (1)本文构建了中文知识库,为了整合多种中文字词典的数据源,为中文词汇赋予更多的语义信息,从而为词义消歧模型提供丰富的外部知识,本文首先明确了中文知识库的构建框架,接着定义了中文知识库的数据模式层,其中包括中文知识库里的概念实体及其关系,主要包括了七个概念实体,即字形、部首、文字、文字词义、词汇、词汇词义和同义词集合,同时梳理了概念实体间的关系。本文知识库的主要数据来源于开放获取的三本中文字词典,通过数据获取和数据预处理等操作,最终将中文知识库存储在Mysql数据库和图数据库Neo4j中。同时,为了获取词汇间语义关系这一外部知识,本文仿照了WordNet知识库构建概念语义网络。中文知识库为本文后续提出的Bert-Sense模型提供了大量的高质量的外部知识,本文选取了词义、例句和词汇间语义关系作为模型的外部知识输入。 (2)本文构建了基于知识的词义消歧模型Bert-Sense,该模型使用了预训练语言模型BERT来训练相关文本数据,使其能够充分地提取相关文本的额外特征。该模型主要分为输入模块、上下文编码器模块,外部知识编码器模块,融合模块。输入模块负责整个模型的输入预处理,上下文编码器模块负责待消歧词的上下文的编码,外部知识编码器模块负责编码待消歧词的外部知识信息来辅助消歧,即词义、例句和词汇间语义关系信息,融合模块负责将外部知识融合到词义消歧模型中。在实验部分,本文设置了对比实验和消融实验,实验结果表明,本文的词义消歧模型Bert-Sense取得了最好的消歧效果,最后,本文发现在加入词义、例句和词汇间语义关系后对比仅仅使用词汇上下文来消歧的模型,消歧效果有了显著的提升,进一步验证了外部知识给词义消歧效果带来了正向的影响。