首页|融合修复代价的不一致关系数据中相似重复记录识别

融合修复代价的不一致关系数据中相似重复记录识别

扫码查看
采用对不一致数据上的修复以及将记录上的属性值用概率表示来解决不一致数据库中相似重复记录的识别。目前对重复记录识别的研究都是直接对不一致数据进行比较的。利用完整性约束对数据进行修复的概念,找到不一致的分量,发现在其上的其余可能值,充分考虑字段之间的语义关系;利用LIMBO概率模型,用数值型概率表示分类数据,克服记录不便于计算的缺点。
Similar Duplicate Identification in Inconsistencies Relationship Data of Fusion Repair Cost
Uses repairs of inconsistent and data and attributes of values expressed as probabilities to detect duplicate records in database. Research-es on identification of duplicate are now being directly compared with inconsistent data. To increase similarities between records, uses in-tegrity constraints to fix data finding inconsistent component and more possible values on them based on the concepts of data recovery. Uses LIMBO probabilistic model, values will be converted into numeric overcoming the disadvantages of which is not easy to calculate.

Duplicate DetectionProbabilisticIntegrity Constraints

沈忱、曾卫明、吴爱华

展开 >

上海海事大学信息工程学院,上海 201306

重复记录识别 概率 完整性约束

国家自然科学基金

61202022

2015

现代计算机(普及版)
中山大学

现代计算机(普及版)

影响因子:0.202
ISSN:1007-1423
年,卷(期):2015.(6)
  • 1
  • 1