基于自注意力的深度对抗子空间聚类算法研究

宋亚芳¹

扫码查看

作者信息

1. 上海海事大学
折叠

摘要

随着海量数据的日益普及和指数级增长，数据也变得越来越高维且非结构化，聚类分析作为一种数据挖掘技术被广泛使用。然而在现实世界中，大规模高维数据的出现越来越普遍，其不同的维度可能具有不同的意义，而且存在着复杂的非线性关系，传统聚类的方法在处理这些数据时存在一定的局限性。因此一些学者开始研究将数据点分配到子空间中的方法，以解决高维数据分析的问题，子空间聚类因此诞生。子空间聚类的核心思想是将数据看作高维空间中的点集，并将其划分到多个子空间中，每个子空间对应着数据中的一些共性特征。最近，将深度学习与子空间聚类相结合成为研究热点，提出了深度子空间聚类，以进一步提高聚类的准确性和鲁棒性。虽然引入深度学习的子空间聚类方法在解决传统方法的一些局限性方面取得了一定的进展，但是在准确性上仍有进步空间，存在信息量缺失和泛化性、鲁棒性问题；此外大多数现有的子空间聚类方法依赖于手工表示的自表达结构，并没有解决潜在的聚类错误或真实数据的复杂结构；而且由于真实数据是非常复杂和高维的，获得更鲁棒的数据表示以提高聚类性能仍然是一个挑战。因此，本文提出了将自注意力机制引入到对抗学习和深度学习中的方法，即基于自注意力的深度对抗子空间聚类方法。该方法通过将自注意力模块引入到深度子空间聚类的卷积自编码器中，自注意力层能够实现远距离依赖关系建模与计算效率之间很好的平衡，能够使编码器和解码器有效地建立图像远程区域之间的关系，来学习更有利的子空间表示。最重要的是，该模型将对抗性学习引入到子空间聚类中，用来监督样本的表示学习以及子空间的聚类。通过对抗性学习来监督潜在的聚类错误，当前的聚类性能会被评估，以确保被评估的子空间的重新采样数据具有一致的子空间属性，子空间聚类会逐渐改善。将带有自注意力的卷积自编码器作为生成器来得到样本聚类和估计子空间,从估计的聚类中采样,生成”假”样本,并将其输送给判别器进行判别,以评估子空间的聚类质量。用不同的数据集进行的实验表明，在大多数情况下的结果显示在归一化互信息（NMI）和精确率（ACC）等指标上本文算法表现良好。

关键词

子空间聚类/深度学习/生成式对抗网络/自注意力机制

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

魏莱/耿国江

学位年度

2023

学位授予单位

上海海事大学

语种

中文

中图分类号

段落导航