国家学术搜索
登录
注册
中文
EN
首页
|
一种针对关系数据库记录的相似重复记录检测算法
一种针对关系数据库记录的相似重复记录检测算法
引用
认领
扫码查看
点击上方二维码区域,可以放大扫码查看
原文链接
NETL
NSTL
万方数据
中文摘要:
在大数据处理分析中,需要对数据记录进行相似重复记录检测并消除,可以提高数据记录的质量.邻近排序算法(SNM算法)是对数据库所有记录进行排序比对,新记录和旧记录都需要比对,而旧记录的相互比是已经做过的,这就造成了一定的计算浪费.在考虑尽量减少这种计算浪费的基础上,提出了一种针对关系数据库记录的相似重复记录检测算法,算法首先创建记录属性关系表,设定属性的相应权重和相似度阈值,通过属性关系表计算记录和其他记录的相似度,从而完成对相似重复记录的检测.实验表明新的算法的效率比SNM算法有一定提高.
收起全部
展开查看外文信息
作者:
马可、郑广海
展开 >
作者单位:
大连交通大学,辽宁大连116028
关键词:
相似重复记录
snm算法
检测
出版年:
2018
电脑知识与技术
时代出版传媒股份有限公司 中国计算机函授学院
电脑知识与技术
影响因子:
0.297
ISSN:
1009-3044
年,卷(期):
2018.
14
(13)
被引量
4
参考文献量
12