首页|基于嵌入表示和伪实体对生成的实体对齐方法研究

基于嵌入表示和伪实体对生成的实体对齐方法研究

扫码查看
知识图谱作为知识工程的基石,在人工智能领域发挥着重要作用,并为各种下游应用任务提供有力的支持。然而,由于不同知识图谱之间存在构建标准、数据格式等方面的差异,导致知识图谱之间存在异质性问题,这阻碍了不同知识图谱之间的知识共享。因此,人们需要整合各类不同的知识图谱,即实现知识图谱的融合。实体对齐是知识图谱融合的主要任务之一,其目的是准确对接不同知识图谱中具有相同语义的实体。 当前,实体对齐任务多采用基于图神经网络的方法,但这类模型在聚合实体语义时,对于蕴含于三元组中的关系信息,其利用程度往往是不充分的。与此同时,实体名称的字符串信息和属性信息作为辅助实体语义理解的关键元素,在实体语义推理阶段并未得到充分利用。此外,现有实体对齐模型在训练过程中高度依赖预对齐的种子实体对,但现实情况下,知识图谱中实体数量庞大,专家手动注释成本高昂,往往难以获取足够数量的种子实体对来训练模型,这限制了现有实体对齐模型的性能。针对上述问题,本文提出了基于嵌入表示和伪实体对生成的实体对齐方法。本文的主要研究工作和贡献包括: (1)在知识图谱实体嵌入表示阶段,为了提升实体嵌入表示的质量,本文考虑了实体邻域信息和属性信息,提出了基于语义感知的实体对齐方法。首先,借助跨语言BERT预训练模型为实体名称生成初步的语义嵌入。接下来,利用知识图谱中的关系三元组构建了一个超图,将共享相同关系的实体使用超边相互连接起来,通过超图神经网络来提取实体间的邻接关系特征,同时利用图神经网络来捕捉知识图谱中的拓扑结构信息,从而聚合每个实体与其邻居实体的语义信息。此外,还采用超图神经网络来提取基于属性的实体深层语义嵌入。最后将上述基于邻域信息和基于属性信息的实体表示进行融合,以此为基础来进行对齐实体的推断。在公开数据集DBP15K和SRPRS上进行的大量实验结果表明,高效聚合实体的邻域关系特征、邻域实体特征以及实体属性信息,可以显著增强实体的嵌入表示质量,进而提升实体对齐模型的整体性能。 (2)为了进一步引入高质量的伪实体对来扩充训练集,在上述模型的基础上,本文提出了多种相似性融合的伪实体对生成实体对齐方法,该方法在伪实体对选择和实体表示中集成了更多的知识图谱信息。具体来说,该方法首先分别计算实体属性、属性值、实体名称字符串以及实体的嵌入表示之间的相似性,并将这些信息的相似性矩阵进行组合,得到一个包含多维信息的实体相似性矩阵,进而使用双向过滤策略筛选并生成高质量的伪实体对,即首先根据实体相似性矩阵得到局部对齐实体;为了消除局部对齐过程中出现的一对多的对齐冲突,在全局对齐阶段,使用延迟接受算法求解实体相似性矩阵,得到一对一的对齐实体;最后将局部对齐结果和全局对齐结果求交集得到伪对齐实体对,将其加入模型中迭代训练。实验结果表明,该方法不仅充分利用了知识图谱中多种类型的信息,还通过选择更合适的伪实体对提高了实体对齐模型的性能。 综上所述,本文在实体嵌入表示阶段,聚合了实体的邻域信息和属性信息,在对齐实体推断阶段,通过求解融合多维信息的实体相似性矩阵来生成高质量的伪对齐实体对,将其加入模型进行迭代训练。在公开数据集DBP15K和SRPRS上的实验结果表明,本文所提出的实体对齐方法在三个评价指标上都明显优于基线模型。

丁能能

展开 >

知识图谱 实体对齐 超图神经网络 伪实体对 嵌入表示

硕士

计算机科学与技术

李泽鹏

2024

兰州大学

中文

TP