基于数据增强的知识图谱补全关键技术研究与应用

张锴¹

扫码查看

作者信息

1. 山东大学
折叠

摘要

知识图谱作为一种结构化表示知识、存储知识的载体，逐步为各种搜索引擎、问答系统等提供数据支持和推理决策，是人工智能的核心关键技术。知识图谱补全技术是知识图谱研究中的热点核心问题之一。知识图谱的补全是指将知识图谱中缺失的实体、关系补充到图谱或者将新知识更新到图谱的过程。当前知识图谱补全技术主要依靠编码实体结构进行补全，但补全技术的研究依然面临诸多挑战。主要包括:（1）利用信息不完整。知识图谱补全方法仅利用实体结构进行补全，未充分考虑知识图谱中数据样本过少、关系长尾分布以及结构异构的问题;（2）补全模型不鲁棒。知识图谱数据质量不稳定，导致补全方法鲁棒性较差。这些问题严重制约着知识图谱补全技术的应用效果。针对知识图谱补全技术中结构异构、样本稀疏等利用信息不完整以及数据质量不稳定、模型鲁棒性差两大类科学问题，论文基于数据增强的思路提出补全方法，具体包括:（1）针对结构异构、样本稀疏问题，提出样本和特征增强的方法。该方法首先利用生成对抗网络预训练学习实体结构和内容特征生成的参数，通过训练成熟的生成器增加训练过程中实体的样本数量以及特征丰富程度;该方法利用实体的内容特征来弥补结构异构的缺陷，并通过自适应机制平衡两者之间的表达权重，以解决知识图谱中结构稀疏的问题。为验证基于数据增强的知识图谱补全方法的效果，论文在Wiki、NELL等5个真实知识图谱数据集上进行补全实验，实验结果表明论文提出的方法相较与其他方法补全效果显著提升，验证了基于数据增强方法的有效性。（2）针对数据质量不稳定及补全方法鲁棒性差的问题，提出基于卷积编码以及自注意力融合的方法。论文分析了各补全方法在知识噪声、数据扰动场景下的鲁棒性，提出卷积编码实体内容特征，利用自注意力机制进行融合，以解决数据质量不高的问题。为验证补全模型在存在数据噪音场景下的鲁棒性，论文在NELL等三个真实数据集上人为设计噪音进行补全实验，结果表明论文中的方法相较于其他方法具有较好的鲁棒性。论文针对数据质量不高的问题，提出基于数据增强的改进方法。实验结果表明基于数据增强的方法可以解决知识图谱领域中存在数据噪音的问题。（3）集成文章研究成果，应用于构建医学知识图谱问答应用。论文基于中文医疗知识图谱，爬取相关医疗信息，利用论文中的模型进行补全并验证模型鲁棒性。通过对比分析补全效果，论文发现基于数据增强的方法可以解决医疗知识图谱不完整、更新不及时等问题。论文在构建医疗问答系统的过程中，运用补全的方法对知识进行了补全和更新。通过对比分析问答系统前后的反馈信息，论文验证了基于数据增强方法在真实场景下的实用性。

关键词

知识图谱/信息补全/数据增强/鲁棒性/问答系统

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

崔立真

学位年度

2023

学位授予单位

山东大学

语种

中文

中图分类号

段落导航