摘要
知识图谱嵌入表示模型将实体与关系转化为低维的向量表示,来表达实体与关系之间的关联语义,是解决知识图谱补全问题的重要方法.传统模型采用随机负采样来构造负例三元组,容易产生低质量负样本,影响表示模型的特征学习能力.基于相似性的负采样方法,对实体点进行聚类,提高了负采样的质量.但针对知识图谱中的稀疏点,因无法控制聚类点数量,导致模型性能降低.经过对相似性负采样和样本点稀疏问题的研究,采用基于密度的聚类算法 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)对聚类中的样本进行头尾实体的替换,并对DBSCAN中的领域聚类半径采取了自适应优化,找到合适的聚类中心,降低离群点的数量.同时对于聚类外的离群点进行过采样,构造离群点的相似点,解决稀疏点负采样的问题.最后,将该负采样方法与TransE结合,得到了混合负采样模型TransE-DNS.研究结果表明:TransE-DNS在链路预测和三元组分类任务上取得了更好的效果.
基金项目
辽宁省教育科学研究项目(LJ2020016)
渤海大学国家安全研究院项目(XK202134-39)