国家学术搜索
登录
注册
中文
EN
首页
|
基于划分的海量数据相似重复记录检测
基于划分的海量数据相似重复记录检测
引用
认领
扫码查看
点击上方二维码区域,可以放大扫码查看
原文链接
NETL
NSTL
万方数据
维普
中文摘要:
针对目前社工库存储的海量数据,数据冗余、查询效率低下的质量问题,本文提出了一种有效的基于划分的近邻排序算法.对不同渠道采集、以不同存储方式存储的社工数据进行整合形成能以二维表形式存储的海量数据集,采用划分思想,对大数据集进行分割,形成簇;采用改进的近邻排序算法对各个簇中的小数据集进行检测得到最终的相似重复记录检测结果.实验和对比分析结果表明,划分和近邻排序算法的结合使用不仅提高了海量数据相似重复记录检测的时间效率,检测准确率也有所提升.
外文标题:
Similar Duplicate Record Detection of Massive Data Based on Partition
收起全部
展开查看外文信息
作者:
李莉、张晓雯
展开 >
作者单位:
江苏大学计算机科学与通信工程学院,镇江212013
关键词:
数据质量
数据清洗
相似重复记录
划分
SNM算法
出版年:
2019
计算机系统应用
中国科学院软件研究所
计算机系统应用
CSTPCD
影响因子:
0.449
ISSN:
1003-3254
年,卷(期):
2019.
28
(3)
被引量
6
参考文献量
6