国家学术搜索
登录
注册
中文
EN
信息系统工程
2020,
Issue
(5) :
30-32.
一种基于核心词相似度的重复数据检测架构建
吴善鹏
李萍
信息系统工程
2020,
Issue
(5) :
30-32.
引用
认领
✕
来源:
NETL
NSTL
万方数据
一种基于核心词相似度的重复数据检测架构建
吴善鹏
1
李萍
1
扫码查看
点击上方二维码区域,可以放大扫码查看
作者信息
1.
江苏大数据管理中心
折叠
摘要
针对数据清洗过程中的重复数据问题,以企业名称的相似重复度检查为例,提出一种利用核心词相似计算的重复数据检测框架构建.通过对相似重复数据进行分词程序处理和特征属性字典映射,提取核心词,再对核心词作相似度计算,所得结果加权求和得出相似度,以相似度阈值来判别是否重复.实验表明,该框架可有效用于重复数据检测,具有工程实用性.
关键词
数据治理
/
重复数据检测
/
企业名称重复检测
/
相似度计算
引用本文
复制引用
出版年
2020
信息系统工程
天津市信息中心
信息系统工程
影响因子:
0.29
ISSN:
1001-2362
引用
认领
参考文献量
2
段落导航
相关论文
摘要
关键词
引用本文
出版年
参考文献
引证文献
同作者其他文献
同项目成果
同科学数据成果