现代计算机(普及版)2015,Issue(6) :3-9.DOI:10.3969/j.issn.1007-1423.2015.17.001

融合修复代价的不一致关系数据中相似重复记录识别

Similar Duplicate Identification in Inconsistencies Relationship Data of Fusion Repair Cost

沈忱 曾卫明 吴爱华
现代计算机(普及版)2015,Issue(6) :3-9.DOI:10.3969/j.issn.1007-1423.2015.17.001

融合修复代价的不一致关系数据中相似重复记录识别

Similar Duplicate Identification in Inconsistencies Relationship Data of Fusion Repair Cost

沈忱 1曾卫明 1吴爱华1
扫码查看

作者信息

  • 1. 上海海事大学信息工程学院,上海 201306
  • 折叠

摘要

采用对不一致数据上的修复以及将记录上的属性值用概率表示来解决不一致数据库中相似重复记录的识别。目前对重复记录识别的研究都是直接对不一致数据进行比较的。利用完整性约束对数据进行修复的概念,找到不一致的分量,发现在其上的其余可能值,充分考虑字段之间的语义关系;利用LIMBO概率模型,用数值型概率表示分类数据,克服记录不便于计算的缺点。

Abstract

Uses repairs of inconsistent and data and attributes of values expressed as probabilities to detect duplicate records in database. Research-es on identification of duplicate are now being directly compared with inconsistent data. To increase similarities between records, uses in-tegrity constraints to fix data finding inconsistent component and more possible values on them based on the concepts of data recovery. Uses LIMBO probabilistic model, values will be converted into numeric overcoming the disadvantages of which is not easy to calculate.

关键词

重复记录识别/概率/完整性约束

Key words

Duplicate Detection/Probabilistic/Integrity Constraints

引用本文复制引用

基金项目

国家自然科学基金(61202022)

出版年

2015
现代计算机(普及版)
中山大学

现代计算机(普及版)

影响因子:0.202
ISSN:1007-1423
被引量1
参考文献量1
段落导航相关论文