首页|基于自然最近邻的三支聚类研究

基于自然最近邻的三支聚类研究

吴婷凤

基于自然最近邻的三支聚类研究

吴婷凤1
扫码查看

作者信息

  • 1. 江苏科技大学
  • 折叠

摘要

聚类是一种广泛应用于数据挖掘和机器学习等领域的无监督学习方法,也是机器学习和数据挖掘的基本技术之一。其目的是根据数据对象之间的相似程度将它们分类,将相似度较高的数据对象归为同一类别,从而实现不同类别之间相似度的最小化和同一类别之间相似度的最大化。作为数据挖掘的重要分支之一,聚类分析在发现数据内部结构和挖掘数据中的信息方面起着关键作用。传统的硬聚类算法仅使用一个集合来表示单个类簇,因此每个样本只能属于一个类簇,这导致了对数据内部结构完整表示的严重限制。相比之下,软聚类算法则通过放宽聚类边界的约束来解决重叠聚类、离群点和不确定对象等问题,即一个数据样本可以划分到多个类簇,而两个类簇之间的交集不一定为空集。因此,软聚类算法在揭示数据内部结构方面具有更广泛的应用前景。 作为一种软聚类算法,三支聚类引入了三支决策理论以进行聚类分析。与传统的聚类方法不同的是,类簇不再是一个单独的集合,而是由两个集合,即核心域和边界域组成。核心域包含该类的典型对象,可以确定它们属于这个类簇;而边界域包含该类中的边缘对象,它们可能属于这个类,也可能不属于这个类。这种三支表示既能够处理传统的硬聚类任务,也能处理软聚类任务。通过在类簇中划分边缘区域解决了传统聚类方法中的信息不确定问题,降低了信息不确定性带来的决策风险。本文将三支聚类的思想引入传统的聚类方法中,利用自然最近邻信息对密度峰值聚类算法和集成聚类进行研究与改进,内容如下: (1)针对难以形成清晰的聚类边界的问题,三支聚类方法寻找一种新型的聚类结构,其特征是一对具有紧密连接对象的核心区域和具有相对松散连接对象的边缘区域。密度峰值聚类(DPC)算法是一个非迭代过程,不需要预先确定聚类数,它利用局部密度和局部距离构造决策图,并依据决策图来选择聚类中心,在聚类中心确定之后,将剩余的未分配的对象分配到与之距离最近并比其密度大的聚类中。在本文中,通过利用这两种聚类方法的优点,我们给出了一种新的三支自适应的密度峰值聚类(3W-ADPC)方法。该方法基于局部密度和局部距离的两个改进的定义,利用自然最近邻算法自适应地选择每个样本的邻居,并且不需要截断距离阈值参数。换句话说,3W-ADPC是一种无参数的三支聚类算法。实验结果表明,3W-ADPC算法不仅能很好地解释聚类结构,而且具有良好的性能。 (2)数据类型和分布的复杂性导致样本间关系的不确定性增加,这给有效挖掘数据潜在的聚类结构带来了挑战集成聚类旨在通过融合多个不同的基聚类结果得到统一的聚类划分。本文给出一种基于样本扰动理论的三支集成聚类算法,以解决由于信息不准确或数据不足导致的决策不准确的问题。该算法首先结合自然最近邻算法生成两组扰动数据集,随机提取样本的特征子集,利用传统的聚类算法得到不同的基聚类。利用协关联矩阵和确定性函数得到样本的稳定性,然后根据样本稳定性阈值将样本划分为稳定区域和不稳定区域。稳定区域由高稳定性的样本组成,使用K-means算法将该区域划分为每个簇的核心区域。不稳定区域由低稳定性的样本组成,并分配给每个簇的边缘区域。因此,形成了三支聚类的结果。实验结果表明,与其他聚类集成算法相比,本文的算法在UCIMachineLearningRepository数据集上能够获得更好的聚类结果,能够有效地揭示聚类结构。

关键词

三支聚类/自然最近邻/3W-ADPC算法

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

王平心

学位年度

2023

学位授予单位

江苏科技大学

语种

中文

中图分类号

TP
段落导航相关论文