首页|基于截断Schatten-p范数与自表示的子空间聚类研究及应用

基于截断Schatten-p范数与自表示的子空间聚类研究及应用

扫码查看
子空间聚类,作为一种高维数据聚类方法,是指将数据从高维空间映射到多个低维子空间中,并在低维子空间中进行聚类。目前它已被广泛地应用于数据挖掘和计算机视觉等多个领域。目前子空间聚类的研究方法主要分为两大类,即机器学习子空间聚类方法和深度子空间聚类方法。 低秩子空间聚类方法是传统子空间聚类方法中的一个重要分支,核心思想是利用矩阵的低秩性构造相似度矩阵,获得聚类结果。然而大多数低秩子空间聚类方法忽略了矩阵奇异值长尾分布的特点以及小奇异值对矩阵秩的贡献。现有的深度子空间聚类方法仅仅考虑了数据低维表示的分布特点,并未有效利用数据类别隐空间分布提升聚类性能。为此,分别提出了基于截断Schatten-p范数的低秩子空间聚类模型,基于对抗自编码的自表示子空间聚类模型,基于混合隐变量的自表示子空间聚类模型,主要工作如下: (1)针对传统低秩子空间聚类方法,本文提出使用基于截断Schatten-p范数的低秩子空间聚类模型,在拟合矩阵奇异值的长尾分布特点的同时也充分利用小奇异值,实现对矩阵秩函数的准确估计,进一步提升聚类效果。 (2)针对深度子空间聚类方法,本文提出基于对抗自编码的自表示子空间聚类模型,利用自编码解码器同时学习数据的低维表示和类别表示,并分别将两种表示与先验正态分布和先验多项式分布进行对抗,以此学习更好的图像空间特征;通过引入自表示层,利用数据低维表示构造相似度矩阵,获得数据低维表示的自表示性,进一步提升聚类效果。 (3)针对深度子空间聚类方法中对数据类别的离散分布特征学习需要先验知识帮助的问题,本文提出基于混合隐变量的自表示子空间聚类模型,利用连续采样的方法将数据的低维表示映射到标准正态分布,利用GumbelSotfmax分布采样将数据的类别表示映射到多项式分布。同时通过引入自表示层,运用数据低维表示构造相似度矩阵。该模型减少了人为干预,自动学习数据类别的离散分布特征,进一步地提升了聚类效果。 在标准图像和视频数据集上的综合实验结果表明提出的基于截断Schatten-p范数的低秩子空间聚类模型能够更好地拟合矩阵的秩函数,构造更好的数据相似度矩阵;基于对抗自编码的自表示子空间聚类模型通过对数据类别分布特征的学习,提升了聚类平均准确率;基于混合隐变量的自表示子空间聚类模型,减少了数据类别分布拟合过程中的人工干预,进一步提升了聚类效果。

羊远灿

展开 >

子空间聚类 截断Schatten-p范数 对抗自编码 混合隐变量

硕士

计算机技术

刘兵

2021

中国矿业大学(江苏)

中文

TP