首页|一种针对关系数据库记录的相似重复记录检测算法

一种针对关系数据库记录的相似重复记录检测算法

扫码查看
在大数据处理分析中,需要对数据记录进行相似重复记录检测并消除,可以提高数据记录的质量.邻近排序算法(SNM算法)是对数据库所有记录进行排序比对,新记录和旧记录都需要比对,而旧记录的相互比是已经做过的,这就造成了一定的计算浪费.在考虑尽量减少这种计算浪费的基础上,提出了一种针对关系数据库记录的相似重复记录检测算法,算法首先创建记录属性关系表,设定属性的相应权重和相似度阈值,通过属性关系表计算记录和其他记录的相似度,从而完成对相似重复记录的检测.实验表明新的算法的效率比SNM算法有一定提高.

马可、郑广海

展开 >

大连交通大学,辽宁大连116028

相似重复记录 snm算法 检测

2018

电脑知识与技术
时代出版传媒股份有限公司 中国计算机函授学院

电脑知识与技术

影响因子:0.297
ISSN:1009-3044
年,卷(期):2018.14(13)
  • 4
  • 12