鲁棒多视图聚类算法研究

曾鹏鑫¹

扫码查看

作者信息

1. 四川大学
折叠

摘要

多视图聚类在机器学习中扮演着重要的角色，它可以在没有任何标签信息的情况下将数据划分为不同的类别簇。聚类已被广泛应用于图像分割(image segmentation)和生物信息学(bioinformatics)等领域。然而，由于数据收集和传输的复杂性，信息完备性和公平性在实践中并不总能得到满足。传统聚类算法在面临信息非完备数据时，受数据样本或者跨视图关联关系缺失影响，性能将显著下降；在处理包含敏感属性数据时，可能会依据敏感属性划分数据，从而产生具有偏见和歧视的结果。为了保障信息非完备条件下的聚类性能以及处理敏感属性数据时的公平性，本文专门针对信息非完备问题和公平性问题设计鲁棒算法，主要内容和贡献包括: (1)致力于解决信息非完备问题的现有方法很大程度上依赖于配对样本来重新对齐或恢复有缺陷的样本，但配对样本并不总是可获得的，导致现有方法失效。针对上述问题，本文提出了一种名为语义不变性学习(SeMantic Invariance LEarning，SMILE)的新型框架，用于信息非完备的多视图聚类。具体来说，本文发现不同视图之间存在语义不变性，这使得SMILE能够减轻跨视图差异，从而无需任何配对样本即可学习共识语义。由此产生的共识语义不受视图分布偏移的影响，因此能够有效地重新排列/输入有缺陷的实例和形成聚类。本文在五个基准数据集上与13种方法进行了广泛的对比实验，证明SMILE的有效性优于现有方法。 (2)致力于解决信息非完备问题的现有方法虽然取得了巨大成功，但这些工作大多是启发式的，缺乏统一的算法设计理论。在这项工作中，本文提出了深度公平聚类的互信息理论，并据此设计了一种新型算法，命名为FCMI。具体而言，通过互信息的最大化和最小化，FCMI可以实现深度公平聚类所期望的四个特征：即紧凑、平衡和公平，以及信息丰富的特征。除了在理论和算法上的贡献，这项工作的另一个贡献是提出了一种建立在信息论基础上的新型公平聚类指标。与现有的评价指标不同，本文的指标将聚类质量和公平性作为一个整体来衡量，而不是以单独的方式来衡量。本文通过在包括单细胞RNA-seq图集在内的六个基准数据集数据集上进行实验，在五个指标方面与11种方法进行比较，验证所提出的FCMI的有效性优于现有方法。

关键词

鲁棒多视图聚类算法/深度公平聚类/互信息理论

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

彭玺

学位年度

2024

学位授予单位

四川大学

语种

中文

中图分类号

段落导航