摘要
基于医疗数据集,研究划分式聚类算法K-medoids.针对该算法随机选取初始聚类中心、收敛速度慢、聚类结果不稳定等问题,提出基于方差的密度优化算法.该算法以样本集的均方差和距离均值为基础,再根据样本集的大小计算样本集的密度半径,在相同密度半径下稠密区域的样本具有较高的密度,通过动态选择不同高密度区域的样本作为初始聚类中心,在进行聚类的过程中通过局部优化,加快收敛速度,解决传统K-medoids存在的缺点.将该优化算法应用在UCI机器学习的医疗数据集上测试聚类效果,实验验证该算法选择的初始聚类中心位于样本集的稠密区域,更符合数据集的原始分布,且在乳腺癌数据集上具有较高的聚类准确率,聚类结果稳定,收敛速度快.
基金项目
陕西省教育科学研究计划项目(18JK1100)
深圳市科技计划项目(JCYJ20170816100939373)
陕西省高等教育科学研究项目(XGH19236)