首页|Hadoop下并行化实现文本聚类的优化算法

Hadoop下并行化实现文本聚类的优化算法

扫码查看
目前对文本进行聚类分析是数据挖掘领域的一个重要研究方向,传统的K-means聚类算法在处理海量数据时存在初始聚类中心选取随意而导致运行不稳定的缺点.针对该缺点以及单机串行编程对海量数据聚类效率低的问题,提出了一种Hadoop平台下并行化实现文本聚类的优化算法.该算法首先使用向量空间模型对文本进行表示,并对该过程基于MapReduce并行处理,接着采用基于密度和最大最小距离的算法对初始聚类中心的选取进行优化,并将该优化应用到K-means算法,然后基于MapReduce实现对文本的并行聚类.最后通过实验将Hadoop平台下并行化实现文本聚类的优化算法与其他聚类算法进行对比,实验结果表明优化的文本聚类并行算法在聚类效率和聚类质量上均有较大的提高.
An Optimization Algorithm for Implementing Text Clustering in Parallel Under Hadoop

王辉、潘俊辉、Marius.Petrescu、王浩畅、张强

展开 >

东北石油大学计算机与信息技术学院 大庆 163318

普罗莱斯蒂石油天然气大学 什蒂 100680

K-means 文本聚类 向量空间模型 MapReduce

614020996170209320180032020YDL-18

2022

计算机与数字工程
中国船舶重工集团公司第七0九研究所

计算机与数字工程

CSTPCD
影响因子:0.355
ISSN:1672-9722
年,卷(期):2022.50(12)
  • 4