计算机应用研究2021,Vol.38Issue(9) :2683-2689.DOI:10.19734/j.issn.1001-3695.2021.01.0023

基于共享知识的不完整大数据填充方法

Incomplete big data filling method based on shared knowledge

熊中敏 郭怀宇 王鑫
计算机应用研究2021,Vol.38Issue(9) :2683-2689.DOI:10.19734/j.issn.1001-3695.2021.01.0023

基于共享知识的不完整大数据填充方法

Incomplete big data filling method based on shared knowledge

熊中敏 1郭怀宇 1王鑫1
扫码查看

作者信息

  • 1. 上海海洋大学 信息学院,上海201306
  • 折叠

摘要

针对传统大数据填充方法相似度度量方法单一,且通常只考虑原数据集内部联系,使得填充数据容易被原数据集限制、失去自身原有特点、填充结果不客观等问题.提出一种新的概念——共享知识,该方法首先基于共享知识构建不完整数据集与异源相似完整数据集的共享关系,并建立共享信息系统;其次通过新的相似度度量方法建立它们对象间的相似关系,从而用异源相似完整数据集对象对不完整的数据集对象进行相似填充.实验结果表明,新的相似度度量方法比单一的数值型相似度度量方法填充精度更高.与其他填补算法相比,该方法对缺失值的填充精度值能够稳定地保持在0.85以上,均方根误差稳定在0.15之下,充分保留了填充值的客观性,填充效果更好.

关键词

不完整数据/共享知识/相似度/异源/数据填充

引用本文复制引用

基金项目

出版年

2021
计算机应用研究
四川省电子计算机应用研究中心

计算机应用研究

CSTPCDCSCD北大核心
影响因子:0.93
ISSN:1001-3695
被引量1
参考文献量4
段落导航相关论文