计算机技术与发展2020,Vol.30Issue(12) :99-105.DOI:10.3969/j.issn.1673-629X.2020.12.018

基于密度优化初始聚类中心的K-means算法

K-means Algorithm Based on Density Optimization Initial Clustering Center

王艳娥 安健 梁艳 康晶晶
计算机技术与发展2020,Vol.30Issue(12) :99-105.DOI:10.3969/j.issn.1673-629X.2020.12.018

基于密度优化初始聚类中心的K-means算法

K-means Algorithm Based on Density Optimization Initial Clustering Center

王艳娥 1安健 2梁艳 1康晶晶3
扫码查看

作者信息

  • 1. 西安思源学院 理工学院,陕西 西安 710038
  • 2. 西安交通大学深圳研究院,广东 深圳 518057
  • 3. 山西农业大学 信息学院,山西 晋中 030800
  • 折叠

摘要

针对K-means算法随机选择初始聚类中心,对噪音和异常点比较敏感,聚类结果过多依赖于专家经验从而缺乏一定客观性的问题,提出一种新的度量样本密度的方法优化K-means算法对初始聚类中心的选择.该方法基于样本实际分布,以最优超球体中样本个数与超球体中样本相似性作为度量样本密度的关键,能够有效选出较优的聚类中心,使得选择的初始聚类中心更接近样本集的实际分布.算法在乳腺癌数据集、常用UCI数据集以及人工模拟数据集上进行测试,实验结果表明,与已有同类方法相比,该算法在各数据集上的聚类评价指标均有提高,而且运行速度更快,聚类结果更稳定,聚类准确率更高:在乳腺癌数据集wdbc上的准确率为91.04%,提高了6%.在Iris数据集上的准确率为94%,提高了5%.

关键词

K-means算法/密度/去噪/最优超球体/均方差/噪声数据

引用本文复制引用

基金项目

深圳市科技计划项目(JCYJ20170816100939373)

陕西省教育科学研究计划项目(18JK1100)

陕西省高等教育科学研究项目(XGH19236)

出版年

2020
计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
被引量4
参考文献量7
段落导航相关论文