基于小样本学习的远程监督关系抽取

霍文帅¹

扫码查看

作者信息

1. 中国科学院大学
折叠

摘要

网络文本数据内容庞大、种类繁多，并且蕴含着丰富的知识。但是由于海量规模下数据的来源、形式、规范都存在巨大差异，在处理及利用时会面临很大的困难。如何从海量的文本中获得知识，以及如何帮助人们理解这些数据，显得越来越重要。关系抽取是知识抽取技术的重要组成部分，其目的是从文本数据中发现知识，即找到文中包含的实体对以及实体对之间具有的关联关系。依照关系抽取过程中是否需要用到带标签的数据以及训练语料的获取方式的不同等，关系抽取可以分为无监督关系抽取、有监督关系抽取和远程监督关系抽取。其中，有监督学习方法性能最好，但是训练过程中需要很多标注数据的支持，这就意味着想要通过有监督的方式训练一个性能较好的关系分类模型需要花费很高的代价。无监督关系抽取虽然不需要带标签的数据，但抽取结果较为不稳定。远程监督关系抽取使用回标的思想，自动标注训练数据，克服了有监督方法的不足，适合大规模多领域的网络文本，但是自动标注的数据往往含有部分的噪声，会影响模型的效果。为了解决远程监督关系抽取回标数据噪声带来的影响，本文基于小样本学习的思想，提出了新颖的去噪方法，达到了更好的效果。 1.为了更加精准、全面地对远程监督回标数据进行样本的筛选，本文提出了基于孪生网络的远程监督关系抽取方法。传统的去噪方法将相同实体对回标得到的句子构成一个“包”，利用多示例学习的思想进行去噪。但是这些方法仅能够从包中选择一个最可能有效的示例进行学习，丢掉了大量的数据，不能够充分利用知识图谱的先验信息。本文结合传统方法的优点进行改进，基于小样本学习中的孪生网络模型的思想，将包中概率最大的样本视为正样本，其余样本视为待分类样本，将正样本与待分类样本同时输入到孪生网络模型中，通过向量化后的距离判断其是否属于同一类别，以此有效地对包中样本进行关系选择。实验表明，该方法取得的结果优于基线系统。 2.为了进一步提高算法的效率，以应对更大规模的数据，本文提出了基于原型网络的远程监督关系抽取，利用包中初始得到的样本学习每个类别的原型向量，从而对其余的样本进行分类，提高了算法执行的效率。另外，传统的去噪方法往往只会分别判断每一个样本是否属于当前包所定义的关系类别，或者是预测属于当前类别的概率值，往往忽略了有些样本虽然在初始的包中是一个噪声数据，但是可能属于其他的关系类别。本文基于小样本学习中的原型网络思想，在筛选正样本的同时可以给噪声数据打上新的标签。实验结果表明，本文的方法在保证去噪效果的同时，提高了算法的效率，同时有效地利用了数据集中的噪声数据。

关键词

文本数据处理/知识图谱/关系抽取/远程监督/小样本学习

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

陶建华；张大伟

学位年度

2021

学位授予单位

中国科学院大学

语种

中文

中图分类号

段落导航