首页|基于图表示学习的迭代实体对齐方法研究

基于图表示学习的迭代实体对齐方法研究

王科润

基于图表示学习的迭代实体对齐方法研究

王科润1
扫码查看

作者信息

  • 1. 吉林大学
  • 折叠

摘要

在互联网信息高速发展的背景下,知识图谱作为一种可以高效组织数据的数据结构,在各种高智能的自然语言任务中都有广泛的应用。但单个知识图谱信息含量较少,有时难以满足任务需求,因此需要使用知识图谱融合技术将多个不同知识图谱融合,扩大信息覆盖面,进而提高其下游任务的表现。知识图谱融合的首要任务就是实体对齐,实体对齐指的是找到不同知识图谱中表面形式不同但意义相同的实体。 如何判断两个表面形式不同的实体是否等价是实体对齐任务的难点,现有的大多数实体对齐方法主要是依赖知识图谱的结构信息以及部分标注好的预对齐实体,将实体表示为低维嵌入空间中的向量,通过计算向量间的相似度来判断实体是否对齐。但这些实体对齐方法只考虑了知识图谱中的关系三元组,而忽略了同样蕴含丰富信息的属性三元组,此外预对齐实体的数量与质量会直接对实体对齐表现产生影响。本文针对这两个问题展开研究,主要工作如下: 1.本文提出了基于图表示学习的联合嵌入实体对齐模型(JointEmbeddingEntityAlignmentbasedGraphConvolutionalNetwork,JEGCN)。该模型同时利用知识图谱中的关系三元组和属性三元组,首先使用多层图卷积网络模型对关系三元组中包含的结构信息进行嵌入,并使用高速网络、实体名称初始化策略和最近邻负采样策略提升结构嵌入的表示能力;其次,模型根据关系三元组中实体和关系之间的关联,计算出关系嵌入,并生成实体的结构-关系联合嵌入,对联合嵌入进行训练;再次,模型使用多层图卷积网络模型对属性三元组中的实体属性进行嵌入;最后,将实体的结构-关系联合嵌入与其属性嵌入连接,生成实体的结构-关系-属性联合嵌入。实验结果证明,JEGCN模型在DBP15K数据集上具有良好的表现,在DBP15KFR-EN数据集上的对齐准确率Hits@1达到90.26%,Hits@10得分达到96.66%。 2.JEGCN属于有监督学习,对预对齐实体有较强的依赖性,故本文提出了一种基于图表示学习的迭代实体对齐方法JEGCN_iter。该方法是一种半监督学习方法,使用图卷积网络模型进行建模训练,生成新的对齐实体,将它们加入训练数据中,指导后续训练过程。为提高模型产生的对齐实体的可靠性,本文提出了设置阈值的方法和相互最近实体策略,还采用了重新初始化策略来降低迭代过程中的错误传播概率。JEGCN_iter在DBP15K数据集上的Hits@1得分平均比JEGCN模型高出10%左右,证明了该迭代对齐方法可以有效提升实体对齐效果,并降低实体对齐模型对预对齐实体的依赖性。 3.在半监督学习的迭代实体对齐基础上,本文进一步提出了完全不需要预对齐实体的无监督实体对齐方法JEGCN_usv。该方法通过实体的语义嵌入距离和编辑距离联合计算实体间的距离,从而生成初步的对齐实体集合,再使用这些对齐实体开启迭代对齐的训练过程。实验结果表明,这种无监督实体对齐方法在DBP15K数据集上的表现接近有监督的JEGCN模型,甚至超过了一些有监督和半监督的实体对齐方法。

关键词

迭代实体对齐方法/知识图谱/表示学习/图卷积网络/迭代策略

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

包铁

学位年度

2022

学位授予单位

吉林大学

语种

中文

中图分类号

TP
段落导航相关论文