基于深度学习的中文人物关系抽取研究与应用

雷西唯¹

扫码查看

作者信息

1. 青海师范大学
折叠

摘要

关系抽取作为信息抽取任务中重要的研究方向之一，由于其本身存在的巨大应用价值，近几年在NLP领域被当作热点技术进行研究。中文人物关系抽取是实体关系抽取的一个重要研究方向，主要目的是为了确定文本中的人物实体，从而对人物之间关系做出判断。对人物关系图谱的建设有重大意义。目前已有的中文人物关系抽取相关研究成果中，反映出来的主要问题是公开数据集的缺乏，而针对该问题人们主要采用远程监督的方法，来自行建立训练所需的标注语料。这种方法的优点是，解决了训练数据匮乏的问题。同时，该方法也存在不足，在利用远程监督方法构建数据集时会引入大量噪声数据，对模型的训练造成影响，导致关系抽取结果不佳。针对该问题，本文通过对现有方法的分析，提出了有效的优化方法，并对深度学习在人物关系抽取领域中的应用进行了深入探索。论文主要研究内容如下：（1）针对数据集匮乏的问题，本文从“百度百科”和“CN-DBpedia”中文知识库中获取人物关系对，然后爬取了部分百度百科人物简介数据，并结合部分网络公开数据集，应用远程监督的思想，通过人工标注的方法对这部分数据进行标注，构建了中文人物关系抽取数据集（11280条文本数据）。（2）本文使用BiLSTM、Att-BiLSTM、BiGRU以及BERT+BiGRU+Att四种不同的深度学习模型实现中文人物关系抽取工作。通过分析BiLSTM模型和Att-BiLSTM模型的结果，验证了注意力机制可以有效提高关系抽取效果。相比使用Word2vec词嵌入的Att-BiLSTM模型，BERT+BiGRU+Att模型抽取结果的精确率、召回率、F1值均有提升。因此可以得出，使用BERT训练词向量的方法，可以得到包语义信息更丰富的词向量，这对模型的抽取结果有很大帮助。（3）基于上述构建的神经网络模型，针对当前市场对开源人物关系抽取系统的需求，本文结合Vue、SpringBoot及Flask等主流框架，设计并搭建中文人物关系抽取系统，实现从关系抽取、到关系存储、再到关系可视化的全流程的服务系统，为所需用户提供了便利。系统主要包含关系抽取、数据管理、关系可视化等功能。

关键词

自然语言处理/中文人物关系抽取/远程监督/深度学习/注意力机制

引用本文复制引用

授予学位

硕士

学科专业

电子信息;自然语言处理

导师

赵维纳/李琳

学位年度

2022

学位授予单位

青海师范大学

语种

中文

中图分类号

段落导航