摘要
随着时代的迅速发展,知识图谱在各个领域得到了广泛的应用。然而,由于数据源和提取算法等多种因素的影响,目前已有的知识图谱中缺失了大量的链接。考虑到知识图谱的信息量非常庞大,采用人力手动补全缺失的链接无疑是不切实际的。为了能够自动化地补全知识图谱中缺失的事实,知识图谱补全方法在近年来备受关注。 在知识图谱补全方法中,较为典型的是以RotatE为代表的旋转类方法,它们通过旋转函数建模知识图谱中关系的逻辑模式,获得了优秀的结果。在此背景下,近年来,一种基于极坐标系表示的分层方法逐渐引起研究者们的关注,这些方法在旋转类方法的基础上,进一步引入了由各种语义级别的实体构成的语义层次的建模,取得了有效的进步。然而,尽管这些分层方法有着出色的知识图谱补全性能,它们却有着以下两个缺点。第一,在建模实体的语义层次时,它们没有充分考虑不同语义级别实体的特性并做出针对性的优化,例如,这些方法采用的倍率变换函数仅适用于语义级别较高的实体,但随着实体语义级别的降低,倍率变换的效用会逐渐降低,进而影响模型的性能。第二,在知识图谱中,不同语义级别的实体通常表现出近似的指数分布,尽管如此,这些方法选择了欧氏空间作为嵌入空间,因此存在着较高的嵌入失真。本文针对上述问题对现有分层方法进行改进,以提升知识图谱补全的性能,具体贡献可以总结如下: (1)提出了一种基于层次保留的知识图谱补全方法RHKE,该方法在建模知识图谱中的语义层次时充分考虑了实体本身的语义级别。首先,在构建变换函数时考虑了待变换实体的语义级别,构建了一种基于倍率变换和偏差变换的混合变换函数,该变换函数同时适用于高级别实体和低级别实体。然后,考虑到头实体和不同语义级别的尾实体之间存在链接的可能性不同,RHKE将变换前头尾实体的语义级别组合起来作为附加信息以分别奖励头实体与高级别尾实体和惩罚头实体与低级别尾实体之间的评分。本文在三个基准数据集上进行了详细的实验,结果表明了RHKE有着更高的知识图谱补全性能。 (2)为了低失真地嵌入知识图谱中的语义层次结构,提升知识图谱补全的性能,本文选择更适合嵌入分层数据的双曲空间作为嵌入空间,提出了一种双曲分层知识图谱补全方法HypHKGE,实现在双曲空间中建模实体的语义层次并完成知识图谱补全任务。首先,HypHKGE将欧氏空间中的语义层次概念扩展到双曲空间。其次,为了学习到更好的语义层次表示,使用基于注意力机制的曲率自适应的调整双曲空间的形状。最后,在构建双曲空间中的变换函数时,由于欧氏空间的各种操作不适用于双曲空间,HypHKGE基于双曲理论推导出了双曲层次变换函数以捕获语义层次中蕴含的潜在信息。三个基准数据集上的详尽实验表明了HypHKGE能够以更低的嵌入维度实现更好的知识图谱补全性能。