基于Hadoop的k-means聚类算法并行实现

扫码查看

原文链接

NETL

中文摘要：本文结合MapReduce并行编程模型的优势,提出了一种k-means聚类算法的并行实现方式.通过随机抽样将整个数据集分成n块,n可以根据数据集的大小确定;采用预聚类和线性预测改善聚类中心质量;Map函数完成数据分块和聚类中心初始化,Reduce函数实现数据块的聚类迭代.实验表明,相比于其他并行实现方式,本文所提出的并行方式使得算法效率更高,性能更优.

作者：

顾嘉伟、尚俊娜

展开 >

作者单位：

杭州电子科技大学通信工程学院,杭州310018

关键词：

数据挖掘 MapReduce并行编程模型 k-means聚类算法数据集

主办单位：

浙江省信号处理学会

会议名称：

浙江省信号处理学会2015学术年会

会议时间：

2015-12-01

会议地点：

杭州

会议母体文献：

浙江省信号处理学会2015学术年会论文集

页码：

19-26

出版时间：

2015