基于多视图的无监督子空间聚类算法的研究与应用

刘丝雨¹

扫码查看

作者信息

1. 南京理工大学
折叠

摘要

随着信息获取技术的进步，多视图数据变得无处不在，我们可以轻松地从异构特征空间获得具有多视图表示的数据。多视图聚类旨在利用多个视图间互补的信息和一致的信息来发掘数据中的固有结构。这类算法具有广阔的应用场景，如计算机视觉、自然语言处理、社交多媒体等等。因此多视图聚类在机器学习和数据挖掘领域受到越来越多地欢迎。虽然近年来已经提出了不少多视图聚类算法，并在特定领域取得了不错的效果，但是现有算法仍存在着一些不足。多视图数据往往存在缺少标签信息、数据不完整或者具有噪声的问题。为此，我们提出一种联合特征选择和自表示学习的算法，并将其扩展为一种鲁棒的多视图子空间聚类算法，该算法利用理想的子空间结构学习一致的亲和矩阵。具体来说，该算法从不同视图的数据中学习一致图，该一致图由块对角自表示矩阵编码且具有恰好k个连通分量(k是集群的数量)。除此之外，我们强调对于损失函数的L2,1范数最小化以减少冗余特征和不相关的特征，并隐式地为每个视图分配自适应权重，而无需引入其他参数。最后，推导了一种交替优化算法来求解非凸的目标函数。在合成数据和实际数据集上的大量实验结果表明，我们的方法始终优于其它代表性的多视图聚类方法。多视图数据不一定符合线性子空间分布并且现有的多视图聚类算法大多仅考虑一致性或不同视图的多样性。为此，我们提出了一种深度多视图子空间聚类算法，该算法通过自编码器将多视图数据非线性地映射到一组潜在空间。更重要的是，我们引入一个自表示层来学习多个视图共享的一致表示和一组每个视图特定的表示。具体而言，一致的表示可建模所有视图之间的通用属性，而特定的表示则可捕获每个视图中的固有差异。对四个基准数据集的实验结果表明，与几种最新技术相比，该方法具有更好的性能。通过将算法研究与实际应用相结合，我们设计并实现了一个基于聚类算法的分析系统。该系统主要包括三个部分，分别为主界面模块、数据可视化模块以及聚类算法模块。通过该聚类分析系统，可以更加直观地了解实验数据集，以及执行相关聚类算法并对结果进行可视化显示。

关键词

子空间聚类/自表示学习/多视图学习/无监督学习

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

严慧

学位年度

2019

学位授予单位

南京理工大学

语种

中文

中图分类号

段落导航