摘要
聚类是数据挖掘中十分重要的步骤,随着数据挖掘应用日益广泛,许多聚类算法也纷纷出现.但是这些算法中大多数仅仅处理数值型数据,一些算法处理分类型数据,相当少的算法能够二者都处理.正交分割聚类算法最初为一种快速的,可扩展的处理高维的数值型数据的解决方案而引入.在这里,我们将正交分割聚类算法扩展,使之能够处理分类型数据和混合型数据.正交分割聚类算法采用基于正交一维投影的自上向下的分割策略来在输入数据空间识别高密度区域.该算法使用了积极采样机制需要一次扫描全体数据.我们例证了获得的聚类结果的高质量以及良好的可扩展性.