首页|基于Hadoop的k-means聚类算法并行实现

基于Hadoop的k-means聚类算法并行实现

扫码查看
本文结合MapReduce并行编程模型的优势,提出了一种k-means聚类算法的并行实现方式.通过随机抽样将整个数据集分成n块,n可以根据数据集的大小确定;采用预聚类和线性预测改善聚类中心质量;Map函数完成数据分块和聚类中心初始化,Reduce函数实现数据块的聚类迭代.实验表明,相比于其他并行实现方式,本文所提出的并行方式使得算法效率更高,性能更优.

顾嘉伟、尚俊娜

展开 >

杭州电子科技大学通信工程学院,杭州310018

数据挖掘 MapReduce并行编程模型 k-means聚类算法 数据集

浙江省信号处理学会

浙江省信号处理学会2015学术年会

2015-12-01

杭州

浙江省信号处理学会2015学术年会论文集

19-26

2015