首页|基于划分的海量数据相似重复记录检测

基于划分的海量数据相似重复记录检测

扫码查看
针对目前社工库存储的海量数据,数据冗余、查询效率低下的质量问题,本文提出了一种有效的基于划分的近邻排序算法.对不同渠道采集、以不同存储方式存储的社工数据进行整合形成能以二维表形式存储的海量数据集,采用划分思想,对大数据集进行分割,形成簇;采用改进的近邻排序算法对各个簇中的小数据集进行检测得到最终的相似重复记录检测结果.实验和对比分析结果表明,划分和近邻排序算法的结合使用不仅提高了海量数据相似重复记录检测的时间效率,检测准确率也有所提升.
Similar Duplicate Record Detection of Massive Data Based on Partition

李莉、张晓雯

展开 >

江苏大学计算机科学与通信工程学院,镇江212013

数据质量 数据清洗 相似重复记录 划分 SNM算法

2019

计算机系统应用
中国科学院软件研究所

计算机系统应用

CSTPCD
影响因子:0.449
ISSN:1003-3254
年,卷(期):2019.28(3)
  • 6
  • 6