国家学术搜索

信息系统工程2020，Issue(5) ：30-32.

一种基于核心词相似度的重复数据检测架构建

吴善鹏李萍

信息系统工程2020，Issue(5) ：30-32.

✕

来源：

NETL
NSTL
万方数据

一种基于核心词相似度的重复数据检测架构建

吴善鹏 ¹李萍¹

扫码查看

作者信息

1. 江苏大数据管理中心
折叠

摘要

针对数据清洗过程中的重复数据问题,以企业名称的相似重复度检查为例,提出一种利用核心词相似计算的重复数据检测框架构建.通过对相似重复数据进行分词程序处理和特征属性字典映射,提取核心词,再对核心词作相似度计算,所得结果加权求和得出相似度,以相似度阈值来判别是否重复.实验表明,该框架可有效用于重复数据检测,具有工程实用性.

关键词

数据治理/重复数据检测/企业名称重复检测/相似度计算

引用本文复制引用

出版年

2020

信息系统工程

天津市信息中心

信息系统工程

影响因子：0.29

ISSN：1001-2362

参考文献量2

段落导航

相关论文

摘要
关键词
引用本文
出版年
参考文献
引证文献
同作者其他文献
同项目成果
同科学数据成果