摘要
知识图谱是一种以图的形式储存知识信息的语义网,本质上是以“头实体-关系-尾实体”三元组的数据结构来描述各实体之间的关系,形成一个网络的知识系统。实体关系抽取是构建知识图谱的核心技术,它能够从数据源中识别出实体以及其对应的关系。然而在现实世界中碎片化、非结构化的数据难以被知识图谱所利用,从而影响了知识图谱在具体任务场景中的应用,因此实体关系抽取技术引起了广泛关注。本文通过改进现有的算法,围绕如何有效地从非结构化数据中自动提取实体和关系这一问题展开研究,主要工作分为如下两个部分: (1)为解决潜在语境信息丢失和实体关系抽取两个任务之间的差异性,提出了具有多特征融合和任务特异性的实体关系抽取模型。首先,该模型通过神经网络运算获得字符和词嵌入向量。通过多头自注意力机制对上下文语境信息进行编码,捕获词与词之间的相关性。然后,将不同层次的语义特征进行拼接,得到高效的语义表示。接着利用双向长短期记忆神经网络,捕获句子的长距离依赖性。此外,本文设计了额外的双向长短期记忆网络,在不同数据集上分别调整共享层和任务特定层的数量,增强了任务的特异性。最后对该方法在数据集上进行了实验,结果表明该方法对实体和关系抽取都有较好的效果。 (2)为解决实体和关系信息交互性缺失以及复杂三元组抽取过程中效率低问题,提出了基于节点信息融合和全局对应矩阵的三元组抽取模型。该模型首先基于图神经网络将关系和单词表示为节点,并利用消息传递机制迭代融合这些节点的向量表示,获得更适合关系抽取任务的节点表示。接着预测潜在的关系子集,有效地缓解关系抽取的冗余性。最后设计一个全局对应矩阵,可以高效地实现头实体和尾实体的对齐问题。实验结果表明,本文模型在同样数据集上优于基线模型,在重叠关系三元组抽取任务中具有良好的性能。 通过对实体关系抽取技术进行研究,本文提出了具有多特征融合和任务特异性的抽取算法以及基于节点信息融合和全局对应矩阵的抽取算法,建立了面向非结构化数据的实体关系抽取系统,解决了现有模型在词汇歧义性、信息交互性、关系多样性等方面存在的问题,为建立知识图谱提供理论依据和技术支撑。