摘要
随着互联网时代的来临,大量的文本数据被收集,如何有效提取文本中的信息成为研究的热点。命名实体识别是信息抽取的子任务,可在半结构化和非结构化的文本中提取特定含义的实体,已成为构建知识图谱、问答系统、推荐系统和机器翻译等任务的重要基础。待识别文本中包含丰富的上下文语义和语法信息,如何有效地提取成为提升实体识别效果的关键。深度学习依靠其强大的特征提取和端到端的学习能力,成为中文命名实体识别研究的主流方法。传统的Wold2Vec模型对于相同字符只能获得一种向量表示,而中文字符具有多义性,且对于实体边界的识别效果不佳。本文对基于深度学习的中文命名实体识别方法进行研究,在不添加其他外部特征的情况下,通过深度学习模型自主进行实体识别。主要研究内容如下: (1)针对中文字符的多义性,提出了一种基于RoBERTa预训练模型和多头注意力机制的命名实体识别方法,构建了相应的模型(RoBERTa-BiGRU-MHA-CRF)。该模型通过RoBERTa获取具有上下文和语境信息的动态字向量,采用双向门控单元和多头注意力机制提取特征。针对使用完整RoBERTa模型会造成训练时间过长的问题,本文对RoBERTa模型进行剪枝,减少了训练时间。在Resume和MSRA数据集上的实验结果表明,最终的剪枝模型分别取得了95.57%和94.55%的F1值,高于其他模型,说明了RoBERTa-BiGRU-MHA-CRF模型的有效性。 (2)RoBERTa-BiGRU-MHA-CRF模型提升了实体识别效果。但是采用CRF模型进行解码,对于实体边界的识别效果不佳,而且深度学习模型有着较差的泛化能力。针对此问题,提出了一种基于GlobalPointer和改进R-drop的命名实体识别方法,构建了相应的模型(RoFormer-GlobalPointer+R-drop)。该模型通过带有旋转位置编码的RoFormer预训练模型获取动态字向量,使用GlobalPointer方法进行特征解码,并添加R-drop方法提升了模型的泛化能力。在Resume和MSRA数据集上的实验结果表明,所提模型的F1值分别为98.56%和96.08%,相较于主流模型识别效果最优,且高于RoBERTa-BiGRU-MHA-CRF模型,表明了RoFormer-GlobalPointer+R-drop的有效性。 (3)基于RoFormer-GlobalPointer+R-drop模型,构建了中文电子简历命名实体识别系统。该系统基于以Flask框架为构建基础,主要包含实体识别和历史识别记录查询两个功能。系统的建立方便了简历信息的存储、管理和后续人力资源知识图谱的构建。