基于自表达学习的不完整多视图聚类研究

张洁¹

扫码查看

作者信息

1. 大连理工大学
折叠

摘要

在当今时代，海量数据呈现出多源异构且价值密度低等特点，而多视图学习能够很好地利用不同源数据之间的一致性和互补性来挖掘其背后所隐藏的丰富信息。然而在现实生活中，完整的多视图关系难以获得，另外，考虑到大规模实例的标记需耗费大量人力，许多不完整多视图聚类算法被相继提出。针对该领域现有方法在复杂数据结构捕获上的不足，本文从自表达子空间学习思想出发，提出了两种不完整多视图聚类算法：为解决潜在冗余数据对缺失视图特征学习的干扰，提出了基于加权低秩稀疏表示图学习的不完整多视图聚类算法IMGLWSLR。该算法利用低秩和稀疏约束，通过亲和图学习捕捉多视图数据的全局和局部子空间结构，从而选择出重要特征进行数据间的相互自表示。同时，设计了一种加权机制来抑制缺失实例的影响。此外，还集成了一种核对齐方法，旨在获得不完整视图间的公共特征表示。为解决异构视图间差异分布对不完整多视图有效特征融合的影响，提出了双对齐自监督不完整多视图子空间聚类模型DASIMSC。该模型首先设计了基于视图间一致性对齐与原始几何结构流形对齐的深度自编码器，并结合特定的权重层，实现了不完整多视图的可靠融合。之后，通过自表达层与谱聚类模块的双向学习，进一步获取了具有类内紧凑、类间排斥的易分割子空间结构。算法IMGLWSLR与DASIMSC基于自表达技术，分别针对数据缺失时的视图内特征混淆与视图间分布不一致这两个不同的问题开展学习。本文在多个常用多视图数据集上对所提出的两种算法均进行了不同缺失率下的聚类实验，实验结果表明IMGLWSLR与DASIMSC方法成功地学习到了高精度的不完整多视图聚类特征，其聚类性能明显优于所有对比的先进方法，并且它们适用于任意多视图缺失情形。特别地，IMGLWSLR算法在传统模型中表现出色，而DASIMSC模型突破以往浅层模型的瓶颈，能够捕获数据实例的深度抽象特征，在大规模、高缺失的多视图数据集上具有更加卓越的聚类能力。

关键词

大数据/不完整多视图聚类算法/加权低秩稀疏表示图学习/双对齐自监督学习

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

赵亮

学位年度

2022

学位授予单位

大连理工大学

语种

中文

中图分类号

段落导航