知识图谱层次语义嵌入及数据投毒研究

朱东¹

扫码查看

作者信息

1. 广州大学
折叠

摘要

知识图谱作为描述世界万物之间关联的语义网络，广泛地应用在智能问答、推荐计算等领域中。通过嵌入的方式，知识图谱可以自动完善，同时更方便地应用在下游任务中。层次语义是知识图谱中重要且广泛存在的关系模式，层次语义嵌入通过编码层次语义可以极大地提高知识图谱嵌入的效果。随着层次增加，层次语义的复杂度呈现指数级增长，层次语义嵌入的维度也同步增加，然而，过高的维度导致嵌入模型难以在大规模知识图谱上应用。降低层次语义嵌入模型的复杂度并提升其准确度，是知识图谱应用的必然要求。另外，在商业化运作的知识图谱构建和应用中，数据采集处理的外包已是常见模式，但这一生产性环节可能引入对数数据的恶意攻击或偶然性数据异常，影响知识图谱的健壮性，给知识图谱应用带来安全隐患。因此，面向知识图谱嵌入的数据投毒和评估方法研究，已成为当前支撑知识图谱原生安全和安全应用的高价值问题。本文针对知识图谱层次语义嵌入中的维度和准确度问题，以及安全性支撑问题，研究了层次语义嵌入模型、数据投毒方法及其评价体系，主要工作和贡献如下：（1）提出了融合层次语义的知识图谱嵌入模型LMH-PKE。将知识库中的层次语义映射到双曲庞加莱圆盘空间中，利用双曲空间的可延伸性对层次语义进行编码。实验表明，本文方法可对知识图谱平面语义和层次语义进行融合编码，实现了嵌入空间低维特性的同时，提升了嵌入的准确性，在WN18RR数据集上将Hits@10值提升了1.2%，达到了双曲嵌入模型中的最好效果。（2）提出了面向知识图谱层次语义嵌入的通用数据投毒 H-Attack 方法。针对知识图谱中层次语义嵌入的数据安全问题，首次提出了面向层次语义的数据投毒，通过构建表达层次结构的层次投毒树，缩小搜索空间，实现定向干扰目标三元组的层次语义。实验表明，H-Attack相比传统基于梯度等攻击方法更加有效，在TransE，ConvE等多个嵌入模型中取得了最佳的攻击效果。（3）提出了面向知识图谱嵌入数据投毒有效性的评估框架TS-Assessment。目前已有的数据投毒评估方法忽略了添加数据对模型性能的影响，对数据投毒效果评估存在偏差。另一方面，目前的数据投毒评估方法缺乏对全局影响的评估，导致在实际应用时投毒被防御者察觉的可能性极大。TS-Assessment 提出了毒化性和隐蔽性概念用于评估数据投毒的干扰能力和隐蔽能力，引入被攻击模型的对照模型，提出了可评估数据投毒毒化性和隐蔽性的评估框架。本文在WN18RR和FB15k-237数据集上对5个模型及16种数据投毒方法进行了实验与评估，实验表明，TS-Assessment 具备客观评估数据投毒的毒化性和隐蔽性的能力。综上，本文以层次语义为研究对象，以面向知识图谱嵌入层次语义的数据投毒为主体，提出了可表达层次语义的嵌入模型，可面向层次语义的通用数据投毒方法，以及对数据投毒效果进行毒化性和隐蔽性评估的客观评估框架。

关键词

知识图谱/层次语义嵌入/数据投毒/评估方法

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

方滨兴

学位年度

2024

学位授予单位

广州大学

语种

中文

中图分类号

段落导航