基于划分融合与图融合的多视图子空间聚类及缺失聚类算法

张培¹

扫码查看

作者信息

1. 国防科技大学
折叠

摘要

随着信息技术的迅猛发展，海量数据的概念渗透在各行各业和人们的日常生活中，聚类可以从海量数据中发掘数据内部结构和普遍规律而被广泛研究。而在现实生活中，数据的来源是多样性的，使用多种特征来描述数据能够提供比传统单一特征更加丰富的信息，利用这种多视图的数据来进行聚类可以获得更加理想的聚类性能。尽管多视图聚类在各种应用中表现出出色的聚类性能，但是仍存在一些亟需解决的问题。针对这些问题，本文对目前已有的多视图聚类及缺失多视图聚类算法进行深入分析，进行了基于划分融合和图融合的多视图子空间聚类算法和缺失聚类算法研究，具体包括以下内容：（1）我们提出了一种单步多视图子空间共识聚类算法。目前大部分多视图聚类算法将从样本空间计算出的多个相似图进行融合，直接融合相似度会导致融合的信息中包含太多原始样本空间中的冗余和噪声信息。另一方面，目前大多方法通常将多视图统一表征或者统一图的学习作为算法学习的目标，在得到当下最优的表示之后再进行k均值或者图切割算法得到最终的聚类结果。这两个问题导致了许多算法无法得到最优的聚类的效果，因此我们提出了一种单步多视图子空间共识聚类算法框架，这个框架将多视图表示学习、多视图信息融合以及最后的聚类过程整合在一个优化目标中，这三个过程彼此促进、相互协商，从而可以更好地服务于聚类任务。此外，算法从相似度矩阵中提取出更具有判别性信息的聚类划分表示，在划分级别进行信息融合，避免了融合具有噪声和冗余信息的相似度矩阵，提升了多视图表示的质量，从而促进了聚类性能的提升。随后，我们提出一种有效的轮替优化算法，通过将对应的优化问题转化为多个优化单变量的子问题，从而得到最终的优化结果。最后，我们在基准数据集上与目前先进的算法进行了大量的对比实验。实验结果证明了本章算法的有效性和先进性。（2）我们提出了一种基于自适应加权图融合的缺失多视图子空间聚类算法。基于非负矩阵分解的缺失多视图聚类算法无法有效的探索样本之间的局部结构，且常在超过两个视图的场景下性能骤降。而基于图的缺失多视图聚类方法直接使用原始的高维特征在原始的样本空间进行图的创建，这可能包含一些冗余和噪声。并且他们通常平等地对待各个视图，这可能导致质量比较好的图无法占据融合中的主导地位。针对这些问题，我们提出首先将数据映射为潜在表示，从而可以消除原始数据空间中存在的噪声和冗余，有助于更好地构建每个视图下的相似图。其次我们将特征提取和不完整的图融合整合在一个统一的框架中，使得这两个过程可以相互协商，从而更好地完成图学习任务。所提出的方法可以自适应地学习不同视图之间的重要性，从而使得优质图在图融合过程中发挥更大的作用。对一致图的稀疏约束使得在融合过程中对视图之间的不一致性更加鲁棒。为了高效地求解优化目标，我们提出一种有效的迭代更新的算法，来解决相应的优化问题。我们在一些基准数据集上进行了广泛的实验，并与当前其他先进的缺失多视图聚类算法进行对比，大量实验结果说明了所提出算法的有效性和先进性。

关键词

多视图聚类/数据挖掘/划分融合/非负矩阵分解

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

蔡志平/刘新旺

学位年度

2020

学位授予单位

国防科技大学

语种

中文

中图分类号

段落导航