首页|基于深度学习的实体识别及人物关系分析的应用

基于深度学习的实体识别及人物关系分析的应用

陈校楠

基于深度学习的实体识别及人物关系分析的应用

陈校楠1
扫码查看

作者信息

  • 1. 河北科技大学
  • 折叠

摘要

随着互联网的发展,文本存储的信息量越来越大,因此如何从这些非结构化文本信息中提取到有用信息是十分重要的。非结构文本转化为结构化文本是信息利用中最基础的步骤,而结构化文本的关键又在于命名实体识别和关系抽取。作为自然语言处理的最基本任务,命名实体识别和关系抽取在文本理解、信息检索、文本摘要、问题回答、机器翻译、以及知识库建立等方面起着不可或缺的作用。本文对命名实体识别从粗粒度实体识别以及细粒度实体识别两方面进行了研究,同时利用命名实体识别模型抽取出的人名和人物关系数据集,构建了人物关系抽取的模型,具体内容如下: 1)提出了一种基于BCNN-Bi-LSTM的命名实体识别方法。该方法中引入BERT预训练模型结合深度学习网络中的卷积神经网络和长短期记忆网络对开放领域的数据进行实体识别,使用双向长短期记忆网络获取字符信息,卷积神经网络获取句子信息,将得到的信息矩阵拼接,用条件随机场进行序列标注,完成对人名、地名、机构名的抽取。 2)提出了一种基于注意力机制的细粒度命名实体识别方法。首先,使用长短期记忆网络捕获细粒度实体数据的信息;然后,通过注意力机制针对不同位置的信息设置不同权重参数,以区分不同位置信息的重要程度,提高细粒度实体识别的准确性;最后,用条件随机场进行标注,实现细粒度实体识别。 3)提出了一种基于深度学习人物关系抽取方法。该方法将数据向量化处理后,通过长短期记忆网络、残差网络、通道注意力进行特征获取,在获取的过程中利用了残差网络的多层卷积减少矩阵信息的丢失,同时利用通道注意力动态的提取人物关系词重要信息和重要特征,提高了抽取的效果,构建出更为有效的人物抽取模型。 实验结果表明,本文的方法是有效的,基于BCNN-Bi-LSTM的实体识别模型中,针对人民日报语料和微博语料的F1值分别达到了91.3%和66.3%,可以完成对人名、地名、组织机构名的抽取;基于注意力机制的细粒度实体识别模型的F1值达到了70.51%,可以完成对景点,电影名称等多类的实体识别;在人物关系抽取模型中能够完成人物姓名及人物关系的抽取,F1值达到了85.87%,相对于其他方法有了一定的提高。

关键词

细粒度实体识别/人物关系抽取/深度学习/实体识别

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

高凯/白宇/丁保忠

学位年度

2021

学位授予单位

河北科技大学

语种

中文

中图分类号

TP
段落导航相关论文