计算机应用研究2021,Vol.38Issue(5) :1422-1427.DOI:10.19734/j.issn.1001-3695.2020.04.0109

基于网格密度和局部敏感哈希函数的并行化聚类算法

Partitioning-based clustering algorithm using grid density and locality sensitive hash function based on MapReduce

毛伊敏 陶涛 曹文梁
计算机应用研究2021,Vol.38Issue(5) :1422-1427.DOI:10.19734/j.issn.1001-3695.2020.04.0109

基于网格密度和局部敏感哈希函数的并行化聚类算法

Partitioning-based clustering algorithm using grid density and locality sensitive hash function based on MapReduce

毛伊敏 1陶涛 1曹文梁2
扫码查看

作者信息

  • 1. 江西理工大学信息工程学院,江西赣州341000
  • 2. 东莞职业技术学院计算机工程系,广东东莞518172
  • 折叠

摘要

针对大数据背景下基于划分的聚类算法中存在初始中心敏感,节点间通信开销大以及集群效率低下等问题,提出了基于网格密度和局部敏感哈希函数的PBGDLSH-MR并行化聚类算法.首先,对初始数据集提出网格密度策略(GDS)获取初始中心点,有效避免了随机选取引起的初始中心敏感的问题;其次,提出基于局部敏感哈希函数的数据分区(DP-LSH)用于投射关联性较大的数据对象到同一子数据集中,得到map上的数据分区,并设计相似性度量公式(SI)对数据分区结果进行评价,从而降低了节点间的通信开销;接着设计自适应分组策略(AGS)处理数据分区中数据倾斜的问题,进而有效地提高了集群效率;最后,结合MapReduce计算模型并行挖掘簇中心,生成最终聚类结果.实验结果表明,PBGDLSH-MR算法的聚类效果更佳,同时在大数据环境下能有效地提高并行计算的效率.

关键词

大数据/并行化聚类/网格密度/哈希函数/MapReduce

引用本文复制引用

基金项目

国家重点研发计划资助项目(2018YFC1504705)

国家自然科学基金资助项目(41562019)

广东省普通高校特色创新(自然科学)资助项目(2019GKTSCX142)

广东省普通高校特色创新(自然科学)资助项目(2017GKTSCX101)

出版年

2021
计算机应用研究
四川省电子计算机应用研究中心

计算机应用研究

CSTPCDCSCD北大核心
影响因子:0.93
ISSN:1001-3695
被引量3
参考文献量9
段落导航相关论文