摘要
聚类分析作为机器学习的重要方法,一直广受关注。聚类是无监督学习,能将一组无标签的数据进行分类。至今,已有众多的聚类算法被提出,它们各有特色。但由于现实世界数据的复杂性与不确定性,尽管已经提出了许多聚类方法,但人们普遍认为单一的聚类算法不能有效地处理所有类型的数据。聚类集成是解决上述难题的一种有效方法。它通过分析处理多个基聚类结果,来探寻一个高鲁棒性和高准确性的一致性聚类结果。 然而,现有的聚类集成方法大多同等看待所有的样本,没有考虑到不同样本在聚类过程中发挥的作用有很大差异。在一组样本中,簇核心的样本拥有更稳定的分布,能有效指导数据结构的挖掘。而簇边缘的样本往往容易混入相邻的簇中。因此,评估样本的重要性来帮助找到核心样本,对于学习数据准确的分布至关重要。此外,用加权的思想来提升聚类集成方法的性能也是一个被许多研究人员关注的方向。但现有的簇加权聚类集成方法在评估簇可靠性时,考虑所有簇的划分一致性。这种做法忽视了低质量簇可能带来的错误的结构信息。在此基础上,本文开展了如下的研究工作: (1)针对不同样本在聚类过程中重要性不同的问题,本文提出了一种基于样本代表性的聚类集成算法。该算法能够根据样本与邻居样本之间关系的稳定程度和紧密程度来评估样本的重要性,从而提高最终一致性聚类的性能。首先,本文定义了样本代表性指标来衡量样本在聚类过程中的贡献,以此将样本分为簇核心样本和簇边缘样本。其次,本文对于两部分样本采用不同的集成策略。从簇核心样本中挖掘出数据集的可信预结构,将簇边缘样本分批划分到此预结构中。一系列的人工数据集上的可视化实验和真实数据集上的对比试验证明了基于样本代表性的聚类集成算法的合理性和优越性。 (2)针对现有簇加权方法在评估簇可靠性时受低质量簇影响的问题,本文提出了一种基于簇可靠性的局部簇加权聚类集成算法。不同于现有簇加权算法在计算簇可靠性时平等使用全部簇的做法,本文根据簇的重要性对所有簇进行筛选,选出重要性高的一部分簇作为标准簇,标准簇所含的结构信息更准确、更可信。首先,利用簇内样本的代表性的均值来表示该簇的重要性。一个簇含有越多的高代表性样本,该簇越符合数据的真实分布。其次,选择重要的簇作为标准簇,把每个簇与它们进行重叠分析,从而评估簇的可靠性。之后基于簇可靠性对原始共协矩阵加权。最后使用层次聚类来得到一致性聚类。一系列对比实验证明了基于簇可靠性的局部簇加权聚类集成算法的有效性和稳定性。