首页|一种中文地址类相似重复信息的检测方法

一种中文地址类相似重复信息的检测方法

扫码查看
数据仓库中相似重复记录的识别与消除是数据清洗的热点问题,其中地址类信息对相同实体识别起着非常重要的作用.针对中文地址类信息的处理,建立了包含分词规则的元数据库,提出一种相似重复检测模型.在此基础上,描述了基于特征字符的分词算法和利用可变权值策略计算记录相似度的算法.实验结果表明该方法能有效解决中文地址类重复信息的检测,提高了算法的执行效率及检测精度.
Detection Method of Approximately Duplicated Chinese Address Information

刘哲、夏秀峰、宋晓燕、林桐

展开 >

沈阳航空工业学院,计算机学院,辽宁,沈阳,110136

沈阳师范大学,计算中心,辽宁,沈阳,110034

相似重复记录 中文地址 特征字符 分词 可变权值

辽宁省自然科学基金

20052007

2008

小型微型计算机系统
中国科学院沈阳计算技术研究所

小型微型计算机系统

CSTPCDCSCD北大核心
影响因子:0.564
ISSN:1000-1220
年,卷(期):2008.29(4)
  • 7
  • 6