摘要
基于深度学习的实体关系抽取算法表现出较高的性能,但是现有算法通常假设待预测的关系是一个固定的集合,在使用一个固定的数据集对模型进行训练之后,就用该模型进行预测。然而,在真实场景中,往往会不断出现新的样本和关系,导致现有实体关系抽取算法面临灾难性遗忘的问题,即模型只能识别正在学习的样本中包含的关系,而遗忘从以前任务中学到的知识,最终导致模型在以前任务上的性能严重下降。因此如何提高实体关系抽取算法的实用性成为一个亟待解决的问题。 为了解决这个问题,研究人员开始针对持续的实体关系抽取算法展开研究,并提出了一些较为有效的方法,但仍然存在以下问题:1)现有算法大都采用回放机制,但旧样本的选取没有考虑新旧关系之间的相似性,导致回放的有效性较低。2)持续学习场景下,分类层存在倾向把新旧样本都分到新关系的问题,现有算法都没有对这种倾向性进行解决。3)现有原型学习在计算关系原型时存在误差累积的问题。4)现有算法都是建立在有监督场景下,需要大量人工标注的数据进行训练,限制了算法的实用性。 为了解决上述缺陷,本文对现有的实体关系抽取算法和持续学习算法进行了深入研究,并对已有的持续实体关系抽取算法进行了充分分析,提出了一种更有效的持续有监督关系抽取算法和一种高效的持续无监督关系抽取算法。本文的主要工作与创新如下: 1)本文提出了一个持续有监督关系抽取算法。具体地:首先,针对现有算法在回放时没有考虑新旧关系相似性的问题,本文提出基于句子语义相似度的样本选择器对旧关系样本进行选择,使那些和新关系更相似的旧关系有更大的回放比重。接着,本文提出学习-记忆激活阶段,利用知识对齐策略激活模型对旧关系的记忆,其中,通过模型对齐实现在学习新关系的同时减少模型对旧关系的遗忘,通过权重对齐解决分类层存在的倾向将新旧数据都分到新关系的问题。之后,针对现有原型学习存在的误差累积的问题,本文提出迭代式计算关系原型的方法,最大限度地保留了真正关系原型的特征,避免了关系原型的误差累积。基于上述思想,本文提出了一种更有效的持续有监督关系抽取算法DRKA((D)ifferential(R)eplayand(K)nowledge(A)lignment,DRKA); 2)针对有监督场景需要大量人工标注的数据而导致算法实用性较差的问题,本文首次将持续学习机制引入无监督关系抽取领域。具体地:本文首先采用正则化策略,根据偏导计算参数对每个任务的重要性,并为损失函数添加正则项,在学习新任务的过程中通过该正则项减缓对旧任务重要的参数的更新速度,减少了模型的遗忘。之后,由于重要参数在正则化阶段存在小幅更新累积的问题,本文提出了记忆巩固阶段,通过回放训练进一步巩固模型对旧关系的记忆。同时,本文提出样本获取器对旧关系的样本进行获取和扩充,实现在改善缓解遗忘效果的同时,降低模型发生过拟合问题的可能。基于上述描述,本文提出了一种高效的持续无监督关系抽取算法CURE((C)ontinual(U)nsupervised(R)elation(E)xtraction,CURE); 3)本文在多个通用数据集上进行了大量实验来评估本文提出的两个算法的有效性,并与目前最新最相关算法进行了对比。实验结果表明:本文提出的算法取得了最好的效果。 尽管本文提出的两个算法都取得了较好的效果,但是第一个算法采取的网络模型较简单,导致模型的表达能力一般,第二个算法训练过程的稳定性有待进一步提高。因此如何在表达能力强的模型上进行持续有监督关系抽取以及如何提高持续无监督关系抽取的训练稳定性是本文未来的研究方向。