摘要
随着互联网的普及,信息传播速度不断加快,文本数据也呈现爆炸式增长。作为文本挖掘技术的一个重要分支,文本聚类技术也一直备受关注。本文针对密度峰值发现聚类算法(Clustering by fast search and find of density peaks,DPC)在计算样本对象的局部密度时存在的主观性,利用K近邻信息对局部密度进行重新定义,提出了一种K近邻优化的密度峰值发现聚类算法(Clustering by fast search and find of density peaks based on K-nearestneighbor,KDPC),该算法弥补了DPC算法在定义局部密度时造成的缺陷。