大规模知识图谱嵌入方法的研究

周晶¹

扫码查看

作者信息

1. 东南大学
折叠

摘要

知识图谱是人类知识的一种显式表示方式，作为近年来人工智能研究的热点领域之一，已被广泛应用于语义搜索、人机互动、辅助决策等智能应用场景。然而，在各种知识图谱驱动的应用中，往往需要借助知识图谱嵌入技术将知识图谱中的元素表示为低维稠密的向量形式，弥补显示知识表示的不足，以满足大量推理、分析和预测的需要。虽然知识图谱嵌入已有很多研究工作，但仍存在知识表示不准确和语义不够丰富的明显不足：（1 )基于翻译思想或距离度量的模型不能充分表示知识图谱中的复杂关系；（2) 部分模型仅利用知识图谱中的三元组结构信息；（3) 多数模型忽略了知识图谱中概念和实例的区别。针对上述问题，本文探索如何有效利用知识图谱中的多源信息作为三元组结构信息的补充，提高知识嵌入结果的质量。主要研究工作包括：1 .提出了一种融合实体类型的知识图谱嵌入模型TransET: 针对现有知识图谱嵌入模型忽视了实体类型的问题，TransET设计了一种基于实体类型表示的圆周卷积映射函数，用于构建实体在不同类型下的表示。然后利用基于翻译的思想学习映射后的实体以及关系构成的三元组的结构信息。同时，在学习时以一定的概率限制负采样的实体的类型，加大属于相同类型的实体之间的差异，同时兼顾它们之间的某些相似性。TransET模型具有丰富知识表示的语义信息，并在一定程度上解决复杂关系问题的特点。2 .提出了考虑概念和实例的联合嵌入模型J E C I和JECI++:针对现有知识图谱嵌入模型未区分概念和实例的问题，JECI模型设计了一种基于邻居信息和所属概念信息的圆周卷积预测函数，用于预测目标实例。该预测函数将概念和实例联系起来，使之共同得到学习。针对J E C I模型中存在的普适性较低和复杂度较高等问题，JECI++模型简化了层级概念，并将关系考虑进邻居信息中。JECI模型和JECI++模型在负采样时，对负样本中的实例类型进行了限制，进一步提高了知识表示的质量。两者均可解决概念和实例差异带来的知识表示的质量问题，以及缓解拥有拥有相似关系或属于相似概念的实例在嵌入空间中聚集的现象。在从Freebase、DBpedia以及YAGO等真实知识图谱基础上中构造了评估数据集，采用链接预测和三元组分类等经典知识图谱嵌入任务对本文提出的模型进行了系统评估，并与经典模型进行了系统对比。TransET模型的实验结果比最优基线模型高2.2%?9.8% ， JECI++模型的实验结果比最优基线模型高1.7%?18.6%。结果表明：（1) 实体类型中蕴含的信息有助于学习到更好的知识表示结果；（2) 概念和实例的区分对于得到更加精准的知识表示很有用；（3 )实例的邻居信息可以提高相似实例的辨识度；（4) 圆周卷积可以充分捕获对象间的语义关联。

关键词

知识图谱/嵌入方法/语义搜索

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

汪鹏/彭艳兵

学位年度

2020

学位授予单位

东南大学

语种

中文

中图分类号

段落导航