基于KL散度加权的集成聚类研究

徐佳璇¹

扫码查看

作者信息

1. 西南财经大学
折叠

摘要

随着人工智能的蓬勃发展，数据对机器学习模型的影响至关重要。然而在实际生产生活中，人们所收集到的数据大多都是无标签、带噪声的。即便我们可以人工标注一部分数据，但是面对海量数据，人工标注仍然面临极大挑战。针对这种情况，聚类分析应运而生。作为无监督学习的代表，聚类分析不同于监督学习，其不需要标签的特性可以很好的满足实际需求。但是面对多种多样的数据分布、不同的数据类型，一种适用于所有数据的聚类算法基本不存在。为了解决该问题且进一步的提升聚类的准确性和鲁棒性，集成聚类算法被提出且成功应用。由于缺乏标签作为统一的参照，集成聚类对基聚类的提升幅度有时可能并不显著。一般来说，集成聚类算法可利用的只有基聚类结果，而当前的集成聚类方法对于基聚类结果的深层次信息探索仍然不足。因此，在有限可利用的信息中挖掘更多的深层关系在集成聚类学习中极其重要。为了挖掘深层信息，本文结合图学习理论中的高阶连接关系、结构融合模型、拓扑关系传递性提出了一系列高效的集成聚类方法。主要研究内容如下所示：（1）本文提出了基于KL（Kullback-Leible）散度加权共协（Co-association matrix，CA)矩阵的方法，同时引入了图学习中的高阶连接理论。本文利用CA矩阵自增强模型，优化了其中图拉普拉斯矩阵的学习。将图拉普拉斯矩阵的学习从静态的固定矩阵转化为动态学习的矩阵，将一阶的图拉普拉斯矩阵扩展为多阶连接的最优图拉普拉斯矩阵表示。实验结果表明，基于多阶拉普拉斯矩阵学习的集成聚类方法效果显著，有着较大的应用前景。（2）针对集成聚类中结构学习的单一性问题，本文提出了同时学习两种结构然后将其融合的集成聚类方法。主要利用LSR和CA矩阵自增强模型学习得到两种结构，然后加入哈达玛积融合项，最终将其整合为一个统一的目标函数然后得到结果。两种结构融合学习后得到的最终结果在实验中表现良好，在算法对比中也有着一定的竞争力。（3）针对集成聚类学习中相似性传递问题，本文提出了基于拓扑相关性传递的集成聚类方法。拓扑相关性可以通过相似性较高的邻居传播，这从另一个角度诠释了CA矩阵的连通性问题。在求得拓扑结构之后，再应用常用的图分割或层次聚类方法得到共识结果。可视化结果和实验结果表明拓扑相关性的集成聚类方法提升基聚类的准度更显著，竞争力更强。本文的创新点在于：（1）提出了一种基于KL散度的局部加权方法，该加权方法可应用于簇层面和微簇层面，并且提出了一种基于最优拉普拉斯矩阵学习的集成聚类方法；（2）提出了一种基于哈达玛积融合结构的集成聚类方法；（3）提出了一种基于拓扑相关性学习的集成聚类方法。

关键词

海量数据/集成聚类/局部加权/KL散度

引用本文复制引用

授予学位

硕士

学科专业

计算机应用技术

导师

李太勇

学位年度

2023

学位授予单位

西南财经大学

语种

中文

中图分类号

段落导航