首页|基于Seeds集和成对约束的半监督聚类算法及实现

基于Seeds集和成对约束的半监督聚类算法及实现

扫码查看
半监督聚类是将半监督学习和聚类算法相结合,通过已有的先验信息指导聚类提高算法性能,在生物医学、图像处理、自然语言等领域广泛应用。先验信息主要分为少量带标签的样本集和成对约束两类,现阶段半监督聚类算法大多单一的使用一种监督信息指导聚类,这样会造成一些先验信息的浪费,本文将如何同时使用两种先验信息进行指导聚类算法进行了系统研究,并且扩充了成对约束信息从而提高了算法性能。主要工作如下: (1)提出了一种基于Seeds集和成对约束的属性权重半监督聚类算法。在该算法中,首先对带标签样本集进行优化,随后通过优化的带标签样本集进行成对约束的扩充,其次对数据集的属性求权重贡献率并加入到相似性度量中,最后采用必连勿连约束信息的违反或满足来指导聚类过程。该算法不仅同时使用了两种先验信息,还可以优化先验信息。最后通过在真实UCI数据集与其他算法对比,验证了所提算法的有效性。 (2)提出了一种基于邻域的成对约束扩充算法。在该算法中,首先通过成对约束的传递性构建传递闭包,然后通过定义两个传递闭包的最短距离以及定位其样本索引,将定位索引的样本点作为核心点向另一闭包进行邻域判断将同时满足条件的进行不同传递闭包间的合并,最后将合并得到的所有传递闭包进行成对信息扩充。该算法有效的扩充了成对约束,可以将其用于不同的成对约束半监督聚类算法。最后通过实验证明了该算法的可行性。 (3)设计研发了一种基于MATLAB的半监督聚类系统。该系统具有数据集加载、算法选择、对比结果可视化等功能,为更多的科研工作者提供了便利。 本文的研究成果进一步丰富了半监督聚类算法的研究,在实际领域中具有更好的应用价值,相信在未来可以解决更多的实际问题。

李鑫

展开 >

半监督聚类 Seeds集 成对约束 传递闭包

硕士

计算机技术

曹付元

2021

山西大学

中文

TP