摘要
知识图谱(KnowledgeGraph,KG)作为当今最具影响力的知识表示方式,以其强大的语义能力在各行各业显示出其磅礴的生命力。在大数据环境下,大规模知识的获取成为可能,然而,多源异构数据导致的数据缺失、数据一致性问题,爆炸式数据增长带来的数据错误问题以及传统KG构建技术的不成熟,给KG的质量问题带来了新的挑战,使得KG的下游应用任务遭到严重的威胁。因此,为了提高KG中的知识质量,现阶段已有大量的研究进行KG的错误检测及消除工作。 KG中的错误检测和消除工作需要考虑错误的不同表现形式,依据关联性知识挖掘实体和关系的语义特征进行错误检测,而当前的错误检测工作仍存在一些局限性。传统的错误检测方法大多仅针对RDF三元组中的关系错误,对于实体和类型方面的问题少有涉及,且容易受到已存在的错误知识的干扰。除此之外,对于KG的错误进行针对性修正的研究还处在起步阶段。本文致力于基于现有的错误检测工作,提出完整的知识不一致性检测和消除方法,提高KG的整体知识质量。论文的具体研究内容如下: (1)识别出KG中可能出现的知识不一致性,并基于不同类型的知识不一致性的表现形式,提出基于实体和路径语义信息的知识不一致性检测方法。在实体语义信息方面,研究实体语义信息值、实体对相似度表示、实体和相关路径结合度三种不同的实体对关联强度表示方法,挖掘实体相关特征;在路径语义信息方面,挖掘知识三元组中主语到宾语的多重关系路径,并使用信息论方法表示多重关系路径对三元组中谓语的支持度,以此作为路径相关特征。提出基于多分类方法的知识不一致性检测模型,根据实体和路径语义特征识别多种不一致性知识。最后,通过实验验证知识不一致性检测模型的有效性。 (2)基于不同类型的不一致性知识,提出基于替换策略的知识不一致性修正框架。针对不同类型的知识不一致性知识,设计实体语义子网、关系路径聚类方法找到实体和关系候选集,替换不一致性知识中的错误部分形成候选知识。一方面,依据候选知识抽取相关实体和关系构建知识子图,通过知识子图训练链路预测模型,筛选出知识子图中准确性较高的知识;另一方面,通过三元组中的关系约束挖掘KG的模式信息,设计基数约束与值域约束函数表示知识三元组的约束一致性。最后,通过实验验证知识修正框架的有效性。