摘要
聚类是数据挖掘中最重要的机器学习算法之一,它旨在发现目标数据集中固有的簇结构。传统聚类算法中基于密度的聚类算法的主要优势在于其普遍适用性,因此得到广泛的研究与应用。但密度聚类算法仍然存在一些弊端,例如算法对参数的敏感性较高以及不适用于多密度结构数据集。本文针对这两个问题提出了两种改进算法。主要成果如下: (1)分析了基于密度的空间聚类算法(Density-BasedSpatialClusteringofApplicationswithNoise,DBSCAN)和基于K平均最近邻的改进算法(KANN-DBSCAN)的优缺点。针对DBSCAN算法的聚类效果过度依赖于参数的设置以及参数的全局性导致在多密度结构数据集上无法识别所有簇这两个问题,提出一种基于KANN-DBSCAN的多密度自适应聚类算法(MDA-DBSCAN)。该算法将衰减系数和稳定区间反选策略引入KANN-DBSCAN,优化了参数的自适应过程,提出多密度阈值和合并聚类,从而成功识别多密度结构数据集上的所有簇。通过对比实验验证了MDA-DBSCAN算法在降低参数敏感性的同时,处理多密度结构数据集的有效性。 (2)揭示了密度峰值聚类(DensityPeakClustering,DPC)是一种旨在检测密度严格衰减簇的聚类算法,从分层的角度可视化了DPC算法的详细聚类过程,包括树状层次结构和分配路径。针对DPC算法对截断参数敏感、局部密度和相对距离定义过于简单、且容易忽略低密度簇中心而不能正确识别所有簇以及分配策略鲁棒性差的问题,提出一种基于DPC的多密度自适应聚类算法(MDA-DPC)。该算法基于K近邻思想重新定义数据点的邻域,并提出领域密度来反映局部区域数据的密度分布情况,然后基于领域密度重新定义相对距离,通过相对距离增强领域密度来生成自适应密度,从而优化多密度结构数据集的决策图,以便设置分界点实现簇中心的自识别。此外,通过可视化DPC算法分配路径发现其分配策略可能会不经意地关联不相关的点,受此启发提出基于密度骨干的最近邻一致性动态分配策略,从而提高剩余点分配的正确率。通过对比实验验证了MDA-DPC算法在降低参数敏感性的同时,以较少额外优化时间,处理流形结构和多密度结构数据集的有效性。