计算机技术与发展2020,Vol.30Issue(6) :19-22.

基于Spark的层次聚类算法的并行化研究

Research on Parallelization of Hierarchical Clustering Algorithm Based on Spark

余胜辉 李玲娟
计算机技术与发展2020,Vol.30Issue(6) :19-22.

基于Spark的层次聚类算法的并行化研究

Research on Parallelization of Hierarchical Clustering Algorithm Based on Spark

余胜辉 1李玲娟1
扫码查看

作者信息

  • 1. 南京邮电大学 计算机学院,江苏 南京 210023
  • 折叠

摘要

随着大数据时代的来临,传统的计算模式已经不足以支撑如此大量的数据.基于内存计算的大数据并行化计算框架Spark的出现很好地解决了这一问题. CURE是一种基于取样和代表点的层次聚类算法,它采用迭代的方式,自底向上地合并两个距离最近的簇.与传统的聚类算法相比,CURE算法对异常点的敏感度更小.但是在处理大量数据的情况下,CURE算法存在着因反复迭代而消耗大量时间的问题.文中利用了Spark的RDD编程模型的可伸缩性和分布式等特点,实现了对CURE算法计算过程的并行化,提升了该算法对数据的处理速度,使算法能够适应数据规模的扩展,并且提高了聚类的性能.在Spark上运用CURE算法对公开数据集的并行化处理结果表明,基于Spark的CURE算法并行化既保证了聚类准确率又提高了算法的时效性.

关键词

Spark/层次聚类/CURE/RDD/并行化

引用本文复制引用

基金项目

国家重点研发计划专项(2017YFB0202200)

国家自然科学基金(61872196)

出版年

2020
计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
被引量3
参考文献量9
段落导航相关论文