首页|社工数据预处理系统的研究与实现

社工数据预处理系统的研究与实现

扫码查看
随着物联网、移动互联网及智能手机的快速发展,数据产量呈指数式增长,大数据技术应运而生。由于各种因素,采集到的数据不可避免的出现质量问题,使用这些“脏数据”进行数据挖掘,可能导致不正确的知识挖掘和错误的数据分析,会给研究人员甚至企业带来误导和损失。为提高数据质量,需要对数据集进行数据预处理,特别是,相似重复数据检测和异常数据检测尤为重要。常规的相似重复检测算法存在处理大规模数据效率低下、字段匹配算法选取不当、检测精度依赖于特征选取等问题。异常检测算法存在检测精度在较大程度上依赖于参数选取和特征选择的问题。为解决上述问题,本文在深入研究数据预处理技术的基础上,结合大数据技术,设计并实现了社工数据预处理系统。本文研究工作包括以下内容: (1)研究并分析现存相似重复数据检测算法的优点和不足,提出一种基于划分的相似重复数据检测算法P-SNM。引入大数据分而治之的思想,对大数据集进行划分,采用等级综合评价法为各属性分配权重,依据权重选取关键字。并引入静态索引修剪技术对Q-Gram倒排索引时产生的大量候选集进行修剪,采用编辑距离计算所有加权属性的相似度分数实施字段匹配。实验表明,该算法在提高算法检测精度的同时运行效率也得到提升。 (2)研究并总结现存异常数据检测算法的优点和不足,提出一种基于自然邻居的异常数据检测算法N-LOF。引入自然邻居算法使N-LOF算法根据不同数据集自适应训练出合适的参数。采用PCA算法提取合适的模型特征,使算法能有效地处理高维数据集。通过对比实验验证了算法的有效性,同时算法运行时间得到了一定的提升。 (3)在基于划分的相似重复数据检测算法和基于自然邻居的异常数据检测算法的基础上,本文设计并实现了社工数据预处理系统。该系统采用Hadoop平台、MapReduce编程框架,实现对社工数据的抽取、预处理、存储、查询等功能,并可视化展示预处理结果。

张晓雯

展开 >

社会工作 数据预处理系统 PCA算法

硕士

计算机技术

李莉

2019

江苏大学

中文

TP