首页|并行处理网络下半结构化大数据快速聚类方法

并行处理网络下半结构化大数据快速聚类方法

扫码查看
半结构化数据量已经超过PB级,在这种大规模数据集上快速响应交互式请求,对关系数据库查询和大数据处理技术都提出了挑战.然而当前的聚类算法均是离线批量处理结构化、非结构化数据.面对半结构化数据对象和应用需求的转变,需要对传统聚类算法针对性地优化和改进.设计一种并行处理网络下半结构化大数据快速聚类方法.首先,在常用的Linux与Windows网络环境中捕获大数据包,并对捕获的多源异构大数据做清洗和集成等预处理操作,完成数据准备工作;然后在并行处理网络下,基于MapReduce框架改进常规CanpoyK-means聚类算法形成BCK-means并行聚类算法,对多源异构大数据进行并行化聚类分析,实现半结构化大数据的快速聚类挖掘.实验结果表明,设计方法在 10 s内即可完成不同类别的半结构化数据集的聚类且聚类结果稳定,在半结构化数据聚类挖掘效率方面具有优势.

王珂

展开 >

广州华南商贸职业学院云智信息技术学院 广东广州 510550

并行处理网络 半结构化大数据 数据快速聚类 聚类方法

广州华南商贸职业学院2020年大学生校外实践教学基地项目

2020HMZLGC29

2024

信息技术与信息化
山东电子学会

信息技术与信息化

影响因子:0.29
ISSN:1672-9528
年,卷(期):2024.(1)
  • 15