摘要
随着互联网以及人工智能技术的快速发展,知识图谱逐渐成为人工智能和智能信息服务领域的基础核心技术。目前,它已被广泛应用于搜索引擎、人机交互、推荐系统等领域。知识图谱的完整性是其能够有效支撑上述领域的前提。然而,知识图谱的构建是机器自动完成的,在构建过程中难免会丢失部分信息,这将导致知识图谱通常是不完整的。因此,知识图谱补全即预测三元组中的缺失部分,成为了一个关键的研究问题。目前有很多知识图谱表示学习算法被广泛应用于知识图谱补全,但是对每种关系大量训练数据的需求,限制了他们在长尾关系分布的数据上的表现。然而,真实的知识图谱中存在大量的长尾关系,即它们拥有很少的三元组。在已知三元组较少的情况下,利用一般的知识图谱表示学习算法难以训练出表现良好的模型来完成知识图谱补全任务。另外,真实的知识图谱中也存在大量的长尾实体,即它们的邻居数目很少。如果仅通过实体之间的特征传播与聚合的方式来学习实体的表示,将难以得到具有丰富语义的特征表示,从而影响后续的补全任务。针对知识图谱中广泛存在的长尾关系和长尾实体的问题,以提升知识图谱补全模型准确率为目标,进行了研究。本文的主要研究内容与创新点如下: 1.针对知识图谱中长尾关系的问题,提出了一种基于解耦表示学习的知识图谱补全模型。首先,利用解耦表示学习对知识图谱进行解耦,以得到所有实体的解耦表示;其次,将三元组的头尾实体表示进行拼接,利用全连接网络对拼接后的表示进行特征增强,以得到实体对表示;最后,将支持集和查询集表示传递到匹配处理器中,以得到多因子的匹配分数,其最大值即为最终的匹配分数,进而解决同一实体对之间具有不同语义的多重关系的匹配问题。在真实数据集上的实验结果表明,所提出的模型相对于目前先进的算法,表现出了良好的知识图谱补全效果。 2.针对知识图谱中长尾实体的问题,提出了一种融合文本表示学习与解耦表示学习的知识图谱补全模型。首先,将三元组对应的文本描述输入到BERT模型中,以得到三元组的表示;其次,将三元组的头尾实体输入到实体编码器中,以得到对应的实体表示,进一步和三元组表示同时输入到关系编码器中,以得到长尾关系的表示;最后,通过比较BERT对查询集分类为正确的概率和匹配处理器的匹配分数,选取二者的最大值作为最终的查询匹配分数。在真实数据集上的实验结果表明,所提出的模型相对于目前先进的算法,表现出了良好的知识图谱补全效果。