聚类算法是一种根据相似特征将数据集分为几个类别的重要机器学习算法。聚类分析广泛应用于机器学习,模式识别,生物信息学和图像处理。 2014年,Alex Rodriguez等人在《Science》上提出了一种新的基于密度的密度峰聚类(DPC)算法。该算法借助了数据点的密度以及其到具有更高密度点的距离这两个特征来发现潜在的簇心。密度峰聚类算法简洁明了,能一步得到聚类结果,且聚类效果较佳。但是该算法在聚类过程中需要人为参与分析决策图并选取潜在的簇心,这降低了算法的效率。 为了实现自动聚类的目的,本文针对各个点在决策图上的特点,提出了采用密度与距离的乘机Z为新的判断指标来选择潜在的簇心并采用概率统计的方法来筛选簇心的方法。由于只有潜在的簇心具有较高的密度与较大的距离,因此它们的Z值远远大于非簇心点。假设Z的分布是正态分布,因此可以借助概率统计的方法来确定一个上界。超过该上界的值所对应的点将自动被视为簇心点。 实验结果表明,采用正态分布这样概率统计方法能正确识别出潜在的簇心点,且该方法选取簇心的方式与人为分析决策图选取潜在簇心的方法相似,与其他优秀的聚类算法相比,基于正态分布的密度峰聚类算法在应对不同形状的数据集的方面具有更优秀的性能,能得到较好的聚类结果。