计算机技术与发展2020,Vol.30Issue(8) :14-21.DOI:10.3969/j.issn.1673-629X.2020.08.003

多种聚类算法性能的比较分析

Comparative Analysis of Performance of Multiple Clustering Algorithms

纪汉霖 李兆信
计算机技术与发展2020,Vol.30Issue(8) :14-21.DOI:10.3969/j.issn.1673-629X.2020.08.003

多种聚类算法性能的比较分析

Comparative Analysis of Performance of Multiple Clustering Algorithms

纪汉霖 1李兆信1
扫码查看

作者信息

  • 1. 上海理工大学,上海 200093
  • 折叠

摘要

聚类模型是数据挖掘的重要模型,聚类相关模型比较多,聚类算法对数据特征等有较高的要求,目前广泛应用于人工智能、数据分析等领域.选取了六种不同类型的聚类算法,即Affinity Propagation、Birch、Gaussian Mixture Model、Hierarchical clustering、K-means和Spectral,并对其进行了对比分析.采用由机器生成的符合大数据时代下数据特性的数据集而非UCI数据库中符合特定形态的标准测试集,并在数据集上对算法进行了性能测试、效率测试和敏感性分析.研究结果显示,在性能测试上:AP算法聚类效果最佳,其次是K-means算法.Affinity Propagation算法对数据的要求高,使用范围小,K-means适用性和稳定性相对比较好;在效率测试上,Affinity Propagation算法最差,其次是Spectral算法;在敏感性上,K-means算法和Hierarchical clustering算法对数据的数量级不敏感,Spectral算法对数量级比较敏感.从聚类效果、性能和对数量级的敏感性三个方面综合来看,K-means算法相对优于其他五种聚类算法.

关键词

聚类算法/机器数据集/性能/效率/敏感性

引用本文复制引用

基金项目

国家自然科学基金(71372114)

上海市研究生创新基金(JWCXSL1102)

上海市教委重点学科建设项目(J50504)

出版年

2020
计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
被引量8
参考文献量9
段落导航相关论文