基于划分的海量数据相似重复记录检测

扫码查看

原文链接

NETL
NSTL
万方数据
维普

中文摘要：针对目前社工库存储的海量数据,数据冗余、查询效率低下的质量问题,本文提出了一种有效的基于划分的近邻排序算法.对不同渠道采集、以不同存储方式存储的社工数据进行整合形成能以二维表形式存储的海量数据集,采用划分思想,对大数据集进行分割,形成簇;采用改进的近邻排序算法对各个簇中的小数据集进行检测得到最终的相似重复记录检测结果.实验和对比分析结果表明,划分和近邻排序算法的结合使用不仅提高了海量数据相似重复记录检测的时间效率,检测准确率也有所提升.

外文标题：Similar Duplicate Record Detection of Massive Data Based on Partition

作者：

李莉、张晓雯

展开 >

作者单位：

江苏大学计算机科学与通信工程学院,镇江212013

关键词：

数据质量数据清洗相似重复记录划分 SNM算法

出版年：

2019

计算机系统应用

中国科学院软件研究所

计算机系统应用

CSTPCD

影响因子：0.449

ISSN：1003-3254

年,卷(期)：2019.28(3)

被引量6
参考文献量6