信息系统工程2020,Issue(5) :30-32.

一种基于核心词相似度的重复数据检测架构建

吴善鹏 李萍
信息系统工程2020,Issue(5) :30-32.

一种基于核心词相似度的重复数据检测架构建

吴善鹏 1李萍1
扫码查看

作者信息

  • 1. 江苏大数据管理中心
  • 折叠

摘要

针对数据清洗过程中的重复数据问题,以企业名称的相似重复度检查为例,提出一种利用核心词相似计算的重复数据检测框架构建.通过对相似重复数据进行分词程序处理和特征属性字典映射,提取核心词,再对核心词作相似度计算,所得结果加权求和得出相似度,以相似度阈值来判别是否重复.实验表明,该框架可有效用于重复数据检测,具有工程实用性.

关键词

数据治理/重复数据检测/企业名称重复检测/相似度计算

引用本文复制引用

出版年

2020
信息系统工程
天津市信息中心

信息系统工程

影响因子:0.29
ISSN:1001-2362
参考文献量2
段落导航相关论文