计算机技术与发展2022,Vol.32Issue(11) :154-163.DOI:10.3969/j.issn.1673-629X.2022.11.023

基于相似度均值的分类数据层次聚类分析算法

A Hierarchical Clustering Analysis Algorithm of Categorical Data Based on Mean of Similarity

褚轲欣 荀亚玲
计算机技术与发展2022,Vol.32Issue(11) :154-163.DOI:10.3969/j.issn.1673-629X.2022.11.023

基于相似度均值的分类数据层次聚类分析算法

A Hierarchical Clustering Analysis Algorithm of Categorical Data Based on Mean of Similarity

褚轲欣 1荀亚玲1
扫码查看

作者信息

  • 1. 太原科技大学 计算机科学与技术学院,山西 太原 030024
  • 折叠

摘要

层次聚类分析在数据挖掘与机器学习等领域是一种广泛使用的无监督学习技术,但是,由于层次聚类分析算法主要是依赖于人为设定的相似度阈值来实现聚类簇的合并或分裂,因此在没有任何先验知识时,难以设定相似度阈值.采用相似度均值以及边界数据对象分配策略,提出了一种基于相似度均值的分类数据层次聚类分析算法.该算法利用相似度均值刻画数据集中数据对象分布的集中趋势以及平稳相似性度量,作为层次聚类簇合并或分裂的重要依据,给出了一种相似度均值的计算公式,从而可以自动确定相似度阈值,解决了层次聚类分析中相似度阈值参数的人为设定问题;利用相似度均值,给出了一种边界数据对象的分配策略,有效提高了边界数据对象分配的准确性及聚类质量.在UCI与人工合成数据集上的实验验证了该算法具有良好的聚类性能和抗噪性,以及相似度均值的稳定性和有效性.

关键词

层次聚类/分类数据/相似度均值/平稳相似性度量/分配策略

引用本文复制引用

基金项目

国家自然科学基金(61602335)

山西省自然科学基金(201901D211302)

出版年

2022
计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
被引量6
参考文献量1
段落导航相关论文