首页|基于CURE算法的相似重复记录检测

基于CURE算法的相似重复记录检测

扫码查看
对CURE算法进行改进,将其应用到相似重复记录的检测.提出预抽样的概念,可以有效地确定记录集中相似重复记录的分布情况,提高随机抽样的准确性.改进代表点选择方法,提出基于距离影响因子的代表点选取策略,既可以根据数据集的密度进行代表点的选取,又能适当选取有一定意义的边缘点作为代表点,提高代表点选取的合理性.理论分析和实验表明,该方法在保证执行效率的情况下有很高的准确性.
CURE Algorithm-based Inspection of Duplicated Records

时念云、张金明、褚希

展开 >

中国石油大学计算机与通信工程学院,东营,257061

相似重复记录 抽样算法 代表点

2009

计算机工程
华东计算技术研究所 上海市计算机学会

计算机工程

CSTPCDCSCD北大核心
影响因子:0.581
ISSN:1000-3428
年,卷(期):2009.35(5)
  • 9
  • 3