计算机研究与发展2023,Vol.60Issue(9) :2028-2047.DOI:10.7544/issn1000-1239.202220311

面向大规模数据的DBSCAN加速算法综述

Survey on DBSCAN Acceleration Algorithms for Large Scale Data

陈叶旺 曹海露 陈谊 康昭 雷震 杜吉祥
计算机研究与发展2023,Vol.60Issue(9) :2028-2047.DOI:10.7544/issn1000-1239.202220311

面向大规模数据的DBSCAN加速算法综述

Survey on DBSCAN Acceleration Algorithms for Large Scale Data

陈叶旺 1曹海露 2陈谊 3康昭 4雷震 5杜吉祥6
扫码查看

作者信息

  • 1. 华侨大学计算机科学与技术学院 福建厦门 361021;食品安全大数据技术北京市重点实验室(北京工商大学) 北京 100048;厦门市数据安全与区块链技术重点实验室(华侨大学) 福建厦门 361021;福建省大数据智能与安全重点实验室(华侨大学) 福建厦门 361021;江苏省计算机信息处理技术重点实验室(苏州大学) 江苏苏州 215006
  • 2. 华侨大学计算机科学与技术学院 福建厦门 361021
  • 3. 食品安全大数据技术北京市重点实验室(北京工商大学) 北京 100048
  • 4. 电子科技大学计算机科学与工程学院 成都 611731
  • 5. 模式识别国家重点实验室(中国科学院自动化所) 北京 100190
  • 6. 华侨大学计算机科学与技术学院 福建厦门 361021;福建省大数据智能与安全重点实验室(华侨大学) 福建厦门 361021
  • 折叠

摘要

DBSCAN(density-based spatial clustering of applications with noise)是应用最广的密度聚类算法之一.然而,它时间复杂度过高(O(n2)),无法处理大规模数据.因而,对它进行加速成为一个研究热点,众多富有成效的工作不断涌现.从加速目标上看,这些工作大体上可分为减少冗余计算和并行化两大类;就具体加速手段而言,可分为 6个主要类别:基于分布式、基于采样化、基于近似模糊、基于快速近邻、基于空间划分以及基于GPU加速技术.根据该分类,对现有工作进行了深入梳理与交叉比较,发现采用多重技术的融合加速算法优于单一加速技术;近似模糊化、并行化与分布式是当前最有效的手段;高维数据仍然难以应对.此外,对快速化DBSCAN算法在多个领域中的应用进行了跟踪报告.最后,对本领域未来的方向进行了展望.

关键词

快速化DBSCAN/密度聚类/聚类算法/大数据/数据挖掘

Key words

fast DBSCAN/density clustering/clustering algorithm/big data/data mining

引用本文复制引用

基金项目

国家自然科学基金(61673186)

国家自然科学基金(71771094)

国家自然科学基金(61876068)

国家自然科学基金(61972010)

福建省科技计划引导性项目(2021H0019)

福建省自然科学基金(2020J05059)

福建省自然科学基金(2021J01317)

出版年

2023
计算机研究与发展
中国科学院计算技术研究所 中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心
影响因子:2.649
ISSN:1000-1239
被引量1
参考文献量1
段落导航相关论文