首页|基于聚类的数据清洗算法的研究

基于聚类的数据清洗算法的研究

扫码查看
在大数据时代来临的当前,数据量的增长速度飞快。获得干净的数据显得尤为重要。尤其随着数据收集的方式多种多样,其中必须要进行的阶段就是数据清洗。不正确的度量方法、收集条件的限制、多数据源的合并、手工的录入都会造成大量的缺失数据和重复记录,传统的方法对于这两方面的应用都略有不足。因此本文在现有的聚类算法的基础上,提出了基于聚类的数据清洗算法。 首先对当前的数据清洗问题做了分析,发现现实社会中主要存在重复记录和缺失记录两种问题,并分析了当前存在的缺失值的处理方法和重复记录的检测方法,发现了它们的不足。然后对聚类算法进行了分析,针对处理数据量很大的这种情况,选择了基于密度的聚类算法。 其次对缺失值的清洗问题做了概述,并探讨了几种缺失值填充方法。研究了基于密度的DBSCAN算法如何应用于缺失值的填补当中。发现了DBSCAN算法不适合应用于字符型缺失值填充。提出了DBSCAN算法和关联规则算法综合利用的改进算法。并进行实验验证了此改进算法在填充准确度上有很大优势。 最后研究了重复记录的清洗问题。先给出了相似度的度量方法和现有字段匹配算法。进而提出了解决多表记录匹配的匹配算法,并进行了实验分析。研究发现了DBSCAN算法在形成聚类簇方面很受参数设置的影响,会造成重复记录检测方面准确度不高的问题。对此提出了检测精度更高的算法,通过实验验证了算法的可行性。

邹旺

展开 >

数据清洗算法 聚类分析 缺失值

硕士

计算机技术

王燕、殷志伟

2015

哈尔滨工程大学

中文

TP