不完整数据的多视图聚类方法研究

李玉琪¹

扫码查看

作者信息

1. 哈尔滨理工大学
折叠

摘要

随着信息技术的发展，通过不同来源采集或使用不同特征表示描述的多视图数据受到广泛关注。目前的多视图聚类方法一般假设每个视图的特征表示都是完整的，但实际场景中的数据通常存在样本缺失。这导致可用判别信息减少、不同视图数据缺失率不同难以整合、捕获非线性结构困难等挑战。因此本文对不完整数据的多视图聚类进行研究，提出三种不完整多视图聚类方法: 针对多视图具有不同缺失率的不平衡不完整性的问题，提出一种基于视图竞争与证据融合的双加权不完整多视图子空间聚类方法。为了整合不平衡不完整的多视图数据，设计正交差异函数对齐共识聚类指示矩阵与视图聚类指示矩阵。考虑视图实例数量与特征适用性两个聚类影响因素，提出视图竞争与证据融合的视图权重迭代机制，实现多个视图权重的自动更新。对于数据中存在的噪声，使用改进的低秩表示来恢复完整数据。最后将不同模块统一到一个目标函数中，有效地解决缺失率不平衡的问题，与其他方法的对比实验验证该方法的有效性与优越性。针对多视图特征表示学习与聚类目标联合优化的问题，提出一种基于图扩散融合的对比多视图聚类方法。通过迭代的图扩散过程捕捉底层流形结构，结合其他视图信息得到不完整视图的补全相似图。增加图对比正则项，使每个视图的相似图具有更紧凑的聚类结构。然后，通过图结构加权融合得到包含全部视图结构信息的一致相似图。最后对一致相似图的图拉普拉斯矩阵施加秩约束，将聚类操作与图表示学习整合到一个框架内，对其联合优化求解得到聚类结果。充分的实验表明图扩散融合的补全方式与联合优化求解可以有效提升不完整多视图聚类模型性能。针对挖掘多视图之间复杂非线性关系的问题，提出一种基于图注意力补全的深度多视图聚类方法。利用图注意力网络聚合邻居节点的嵌入表示来填充缺失节点，实现单视图嵌入补全。设计图自编码器模块充分结合视图的互补信息。先通过编码器得到每个视图补全的嵌入表示，然后多视图解码器利用共识嵌入表示来重构多视图图数据。引入多阶近邻约束模块，使得嵌入表示有效结合多阶相似性信息。自训练聚类模块通过最小化JS散度使嵌入空间中的节点分布更密集。实验结果表明该方法可以有效提取不完整数据的非线性关系，获得良好的聚类结果。

关键词

不完整数据/多视图聚类/图注意力网络/图自编码器

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

李骜

学位年度

2024

学位授予单位

哈尔滨理工大学

语种

中文

中图分类号

段落导航