国家学术搜索
登录
注册
中文
EN
首页
|
基于CURE算法的相似重复记录检测
基于CURE算法的相似重复记录检测
下载
引用
认领
扫码查看
点击上方二维码区域,可以放大扫码查看
原文链接
国家科技期刊平台
NETL
NSTL
万方数据
维普
中文摘要:
对CURE算法进行改进,将其应用到相似重复记录的检测.提出预抽样的概念,可以有效地确定记录集中相似重复记录的分布情况,提高随机抽样的准确性.改进代表点选择方法,提出基于距离影响因子的代表点选取策略,既可以根据数据集的密度进行代表点的选取,又能适当选取有一定意义的边缘点作为代表点,提高代表点选取的合理性.理论分析和实验表明,该方法在保证执行效率的情况下有很高的准确性.
外文标题:
CURE Algorithm-based Inspection of Duplicated Records
收起全部
展开查看外文信息
作者:
时念云、张金明、褚希
展开 >
作者单位:
中国石油大学计算机与通信工程学院,东营,257061
关键词:
相似重复记录
抽样算法
代表点
出版年:
2009
计算机工程
华东计算技术研究所 上海市计算机学会
计算机工程
CSTPCD
CSCD
北大核心
影响因子:
0.581
ISSN:
1000-3428
年,卷(期):
2009.
35
(5)
被引量
9
参考文献量
3