随着信息技术的飞速发展,管理人员进行决策分析时对数据的依赖性越来越强。数据仓库频繁地从各种源数据中装载和刷新,这就要求数据进入数据仓库之前必须进行清洗。本文阐述了数据清洗的基本知识、研究意义和国内外研究现状。分析了数据清洗技术的原理、方法、评价标准及基本流程。在此基础上,对于数据清洗中缺失值的填充使用了以前未用于其中的基于密度的DBSCAN算法并进行了算法的改进,在公测数据集上进行了实验,并且与其他填充方法进行了实验对比,结果显示准确度较以往方法有所提高。最后对数据仓库中近似重复记录问题,改进了清洗算法,进行了实验验证,最终取得了良好的效果。