首页|基于样本空间分布密度的初始聚类中心优化K-均值算法

基于样本空间分布密度的初始聚类中心优化K-均值算法

扫码查看
针对传统K-均值聚类算法对初始聚类中心敏感、现有初始聚类中心优化算法缺乏客观性,提出一种基于样本空间分布密度的初始聚类中心优化K-均值算法.该算法利用数据集样本的空间分布信息定义数据对象的密度,并根据整个数据集的空间信息定义了数据对象的邻域;在此基础上选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-均值聚类.UCI机器学习数据库数据集以及随机生成的带有噪声点的人工模拟数据集的实验测试证明,本算法不仅具有很好的聚类效果,而且运行时间短,对噪声数据有很强的抗干扰性能.基于样本空间分布密度的初始聚类中心优化K-均值算法优于传统K-均值聚类算法和已有的相关K-均值初始中心优化算法.
K-means clustering algorithm based on optimal initial centers related to pattern distribution of samples in space
To overcome the sensible of traditional K-means clustering algorithm to initial centers, and avoid the arbitrary of available improved K-means algorithms for discovering good initial centers, this paper proposed a new algorithm to find the optimal initial centers for K-means clustering algorithm. It defined the density and the neighborhood for each sample according to the natural pattern distribution of exemplars in data space, so that the samples chose as initial seeds not only lie in the higher density area, but also far away from each other. It tested the new algorithm on some well-known datasets from UCI machine learning repository and on some synthetic datasets with different proportion noises using many different measures. The experimental results demonstrate that our new algorithm achieves excellent clustering result in short run time and is insensible to nois-y data. It outperforms the traditional K-means clustering algorithm and those available algorithms for improving the initial seeds of K-means clustering algorithm.

clusteringK-means clusteringinitial centersneighborhooddensity of pattern distribution

谢娟英、郭文娟、谢维信、高新波

展开 >

陕西师范大学计算机科学学院,西安710062

西安电子科技大学电子工程学院,西安710071

深圳大学信息工程学院ATR国家重点实验室,深圳518060

关键词 聚类 K-均值聚类 初始中心 邻域 样本分布密度

中央高校基本科研业务费专项资金重点项目陕西省自然科学基础研究计划中央高校基本科研业务费专项资金资助项目

GK2009010062010JM3004GK201001003

2012

计算机应用研究
四川省电子计算机应用研究中心

计算机应用研究

CSTPCDCSCD北大核心
影响因子:0.93
ISSN:1001-3695
年,卷(期):2012.29(3)
  • 51
  • 10