首页|基于深度学习的中文人物关系抽取研究与应用

基于深度学习的中文人物关系抽取研究与应用

雷西唯

基于深度学习的中文人物关系抽取研究与应用

雷西唯1
扫码查看

作者信息

  • 1. 青海师范大学
  • 折叠

摘要

关系抽取作为信息抽取任务中重要的研究方向之一,由于其本身存在的巨大应用价值,近几年在NLP领域被当作热点技术进行研究。中文人物关系抽取是实体关系抽取的一个重要研究方向,主要目的是为了确定文本中的人物实体,从而对人物之间关系做出判断。对人物关系图谱的建设有重大意义。 目前已有的中文人物关系抽取相关研究成果中,反映出来的主要问题是公开数据集的缺乏,而针对该问题人们主要采用远程监督的方法,来自行建立训练所需的标注语料。这种方法的优点是,解决了训练数据匮乏的问题。同时,该方法也存在不足,在利用远程监督方法构建数据集时会引入大量噪声数据,对模型的训练造成影响,导致关系抽取结果不佳。针对该问题,本文通过对现有方法的分析,提出了有效的优化方法,并对深度学习在人物关系抽取领域中的应用进行了深入探索。论文主要研究内容如下: (1)针对数据集匮乏的问题,本文从“百度百科”和“CN-DBpedia”中文知识库中获取人物关系对,然后爬取了部分百度百科人物简介数据,并结合部分网络公开数据集,应用远程监督的思想,通过人工标注的方法对这部分数据进行标注,构建了中文人物关系抽取数据集(11280条文本数据)。 (2)本文使用BiLSTM、Att-BiLSTM、BiGRU以及BERT+BiGRU+Att四种不同的深度学习模型实现中文人物关系抽取工作。通过分析BiLSTM模型和Att-BiLSTM模型的结果,验证了注意力机制可以有效提高关系抽取效果。相比使用Word2vec词嵌入的Att-BiLSTM模型,BERT+BiGRU+Att模型抽取结果的精确率、召回率、F1值均有提升。因此可以得出,使用BERT训练词向量的方法,可以得到包语义信息更丰富的词向量,这对模型的抽取结果有很大帮助。 (3)基于上述构建的神经网络模型,针对当前市场对开源人物关系抽取系统的需求,本文结合Vue、SpringBoot及Flask等主流框架,设计并搭建中文人物关系抽取系统,实现从关系抽取、到关系存储、再到关系可视化的全流程的服务系统,为所需用户提供了便利。系统主要包含关系抽取、数据管理、关系可视化等功能。

关键词

自然语言处理/中文人物关系抽取/远程监督/深度学习/注意力机制

引用本文复制引用

授予学位

硕士

学科专业

电子信息;自然语言处理

导师

赵维纳/李琳

学位年度

2022

学位授予单位

青海师范大学

语种

中文

中图分类号

TP
段落导航相关论文