摘要
如今对于聚类问题,很多技术与模型都倾向于人为给定聚类数目.而现有的内部聚类判断指标更多考虑的是类内信息,忽略了类间信息,这导致指标的效果不理想,因此如何利用类间信息选择适当数量的聚类是聚类分析领域中广泛研究的问题.而基于重叠度聚类数目预测算法可以很好地解决这个问题.具体来说,首先使用基于改进过后高斯混合聚类算法对未标记的数据集进行预聚类;接着计算聚类类间的重叠,对重叠度的判断以确定和选择聚类的数量.其指标优势在于算法最大限度地减少了超参数的影响,并能够准确确定正确的聚类数.除此之外,所提出的指标还可以当作评判聚类结果的一种通用指标.经过大量实验表明,效果相对于同类型的方法有明显的提升.