基于深度学习的中文命名实体识别的研究与应用

张玉杰¹

扫码查看

作者信息

1. 青岛大学
折叠

摘要

随着互联网时代的来临，大量的文本数据被收集，如何有效提取文本中的信息成为研究的热点。命名实体识别是信息抽取的子任务，可在半结构化和非结构化的文本中提取特定含义的实体，已成为构建知识图谱、问答系统、推荐系统和机器翻译等任务的重要基础。待识别文本中包含丰富的上下文语义和语法信息，如何有效地提取成为提升实体识别效果的关键。深度学习依靠其强大的特征提取和端到端的学习能力，成为中文命名实体识别研究的主流方法。传统的Wold2Vec模型对于相同字符只能获得一种向量表示，而中文字符具有多义性，且对于实体边界的识别效果不佳。本文对基于深度学习的中文命名实体识别方法进行研究，在不添加其他外部特征的情况下，通过深度学习模型自主进行实体识别。主要研究内容如下：（1）针对中文字符的多义性，提出了一种基于RoBERTa预训练模型和多头注意力机制的命名实体识别方法，构建了相应的模型（RoBERTa-BiGRU-MHA-CRF）。该模型通过RoBERTa获取具有上下文和语境信息的动态字向量，采用双向门控单元和多头注意力机制提取特征。针对使用完整RoBERTa模型会造成训练时间过长的问题，本文对RoBERTa模型进行剪枝，减少了训练时间。在Resume和MSRA数据集上的实验结果表明，最终的剪枝模型分别取得了95.57%和94.55%的F1值，高于其他模型，说明了RoBERTa-BiGRU-MHA-CRF模型的有效性。（2）RoBERTa-BiGRU-MHA-CRF模型提升了实体识别效果。但是采用CRF模型进行解码，对于实体边界的识别效果不佳，而且深度学习模型有着较差的泛化能力。针对此问题，提出了一种基于GlobalPointer和改进R-drop的命名实体识别方法，构建了相应的模型（RoFormer-GlobalPointer+R-drop）。该模型通过带有旋转位置编码的RoFormer预训练模型获取动态字向量，使用GlobalPointer方法进行特征解码，并添加R-drop方法提升了模型的泛化能力。在Resume和MSRA数据集上的实验结果表明，所提模型的F1值分别为98.56%和96.08%，相较于主流模型识别效果最优，且高于RoBERTa-BiGRU-MHA-CRF模型，表明了RoFormer-GlobalPointer+R-drop的有效性。（3）基于RoFormer-GlobalPointer+R-drop模型，构建了中文电子简历命名实体识别系统。该系统基于以Flask框架为构建基础，主要包含实体识别和历史识别记录查询两个功能。系统的建立方便了简历信息的存储、管理和后续人力资源知识图谱的构建。

关键词

命名实体识别/深度学习/RoBERTa模型/特征解码/动态字向量

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

李劲华

学位年度

2023

学位授予单位

青岛大学

语种

中文

中图分类号

段落导航