计算机科学与实践2004,Vol.2Issue(9) :123-126,138.

一个面向大规模数据仓库的数据清洗策略的研究和实现

A Strategy of Data Cleaning for Very Larger Data Warehouse

汪恒杰 胡大斌 嵇晓
计算机科学与实践2004,Vol.2Issue(9) :123-126,138.

一个面向大规模数据仓库的数据清洗策略的研究和实现

A Strategy of Data Cleaning for Very Larger Data Warehouse

汪恒杰 1胡大斌 2嵇晓1
扫码查看

作者信息

  • 1. 上海宝信软件股份有限公司数据分析部,上海,201900;上海交通大学,计算机科学与工程系博士后流动站,上海,200030
  • 2. 上海宝信软件股份有限公司数据分析部,上海,201900
  • 折叠

摘要

随着数据仓库和数据挖掘等商务智能技术在企业的逐步应用,这些技术都需要由原始的生产数据集成并产生新的面向主题的、集成的、时变的、稳定的数据集合.但企业的数据往往存在着大量的质量问题,数据的质量将直接影响基于这些数据的信息服务的质量.数据清洗的目标是通过各种措施从准确性、一致性、无冗余、符合应用的需求等方面提高数据的质量.本文针对ETL过程中的数据清洗任务,提出了结合改进的N-gram文法纠错算法和GDBR泛化算法的数据清洗策略,并根据COBRA和CWM标准开发应用工具,实践表明,该策略是可行并且有效的.

关键词

数据仓库,数据清洗/ETL,N-Gram,GDBR

引用本文复制引用

出版年

2004
计算机科学与实践
计算机科学与实践杂志社

计算机科学与实践

ISSN:1729-584X
参考文献量1
段落导航相关论文