首页|基于子空间的I-nice聚类算法

基于子空间的I-nice聚类算法

扫码查看
高维数据的子空间聚类是无监督学习领域的热点研究问题,其难点在于寻找恰当的子空间以及其中的数据簇.大多数现有的子空间聚类算法均存在计算复杂度高和参数选择难的缺陷,这是因为在高维数据中子空间的组合数量很大,算法的执行时间非常长,且不同数据集和应用场景需要不同的参数设定.为此,提出了基于子空间的I-nice(简记为sub-I-nice)聚类算法用于识别高维数据中子空间内数据簇的个数.首先,该算法将原始数据维度随机划分成多个维度组,根据维度组生成子空间样本;接着,使用最新的I-niceM O算法对每个子空间数据进行聚类;最后,采用新设计的球模型对所有子空间的基聚类结果进行集成.在含有噪声的高维仿真数据集上对所提出的sub-I-nice算法进行了详细的性能验证,实验结果表明sub-I-nice算法相比其他3种代表性聚类算法有更好的准确性和鲁棒性,从而证实了其合理性和有效性.
Subspace-based I-nice Clustering Algorithm
Subspace clustering of high-dimensional data is a hot issue in the field of unsupervised learning.The difficulty of sub-space clustering lies in finding the appropriate subspaces and corresponding clusters.At present,the most existing subspace clus-tering algorithms have the drawbacks of high computational complexity and difficulty in parameter selection because the number of subspaces combinations is very large and the algorithmic execution time is very long for high-dimensional data.Also,the diffe-rent datasets and application scenarios require different parameter inputs.Thus,this paper proposes a new subspace clustering al-gorithm named sub-I-nice to recognize all clusters in subspaces.First,the sub-I-nice algorithm randomly divides the original di-mensions into groups to build subspaces.Second,I-niceMO algorithm is used to recognize clusters in each subspace.Finally,the newly-designed ball model is designed to construct subspace clustering ensemble.The persuasive experiments are conducted to validate the clustering performances of sub-I-nice algorithm on synthetic datasets with noise.Experimental results show that the sub-I-nice algorithm has better accuracy and robustness compared to the other three representative clustering algorithms,thereby confirming the rationality and effectiveness of the proposed algorithm.

Subspace clusteringI-nice clusteringHigh-dimensional dataUnsupervised learningBall model

何一帆、何玉林、崔来中、黄哲学

展开 >

深圳大学计算机与软件学院 广东深圳 518060

人工智能与数字经济广东省实验室(深圳) 广东深圳 518107

子空间聚类 I-nice聚类 高维数据 无监督学习 球模型

国家自然科学基金面上项目广东省自然科学基金面上项目深圳市基础研究重点项目深圳市基础研究面上项目

619722612023A1515011667JCYJ20220818100205012JCYJ20210324093609026

2024

计算机科学
重庆西南信息有限公司(原科技部西南信息中心)

计算机科学

CSTPCD北大核心
影响因子:0.944
ISSN:1002-137X
年,卷(期):2024.51(6)
  • 36