基于多层自编码器和子空间聚类的图表示学习研究

刘靓¹

扫码查看

作者信息

1. 安徽大学
折叠

摘要

本文主要针对图表示学习进行研究。图（又名网络）是一种广泛用于表示关系信息的数据结构。在现实世界中，许多复杂的系统都是用图来表示，例如生物网络、社交网络、交通网络等。图是一种复杂的非欧几里德数据结构，很难直接对其进行有效划分。因此，往往需要将一个图映射到一个潜在的低维向量空间来提取节点嵌入特征,然后在嵌入特征上执行各种图表示学习任务。图聚类是复杂网络分析中一项重要的无监督学习任务，其最新进展主要依赖于图自编码器（GAE）模型。然而，这些方法有三个主要的缺点:（1）大多数自编码器模型选择图卷积网络（GCN）作为编码器，但GCN编码器中的滤波器和权重矩阵的纠缠问题影响了结果的表示性能。（2）真实的图通常是稀疏的，需要多层传播来生成有效的特征，但（GCN）编码器在多层堆叠时容易出现过平滑问题。（3）现有的方法在嵌入阶段忽略了节点特征在特征空间中的分布，使得其结果不适合用于聚类任务。针对上述问题，本文研究了大量多层编码器和子空间聚类工作，提出一种基于多层自编码器和子空间聚类的图表示学习框架，该框架包含两个模型，主要内容如下: 第一，针对单视角图，本文提出了一种新颖的图拉普拉斯自编码器（GLASS）,它具有用于图聚类的子空间聚类正则化项。具体来说，GLASS首先使用拉普拉斯平滑滤波器代替GCN进行特征传播，使用MLP进行非线性变换，从而解决卷积滤波器和权重矩阵之间的纠缠问题。考虑到多层传播容易出现过度平滑问题，GLASS进一步在多层拉普拉斯平滑滤波器之间添加残差连接，以增强其多层特征传播能力。此外，为了提高聚类性能，模型引入了子空间聚类正则项来约束自编码器获取更具代表性和适合聚类的节点特征。第二，针对多视角图，本文提出了一种适用于多视图数据集的图嵌入模型（MAMSC）。该模型具有多个编码器和解码器，其中编码器部分采用单视图模型中设计的多层图拉普拉斯编码器，并在编解码过程中融入多视角子空间聚类。该多视角子空间聚类模块提取各个视图的子空间表示，充分捕捉各个视图的子空间分布信息。同时本文设计了一个注意力模块，该注意力模块被用来自适应学习不同视图的语义权重，并通过学习到的视图特定权重来融合不同视图中的节点表示，最后训练多端解码器去重构各个视图的结构和特征。本文所提框架的两个模型在多个真实网络数据集上进行了大量的实验，如节点聚类,图像聚类，链路预测等，其实验结果普遍优于对比方法。此外，消融实验还进一步分析和证明了模型中每个模块的有效性。

关键词

图表示学习/多层自编码器/子空间聚类

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

罗斌；孙登第

学位年度

2023

学位授予单位

安徽大学

语种

中文

中图分类号

段落导航