首页|Spark平台下基于加权词向量的文本分类方法

Spark平台下基于加权词向量的文本分类方法

扫码查看
针对Spark平台下文本分类中文本表示方法不够完善,导致分类准确率低的问题,结合Spark ML下的TF-IDF算法和Word2vec模型,提出一种基于Spark ML的加权词向量文本表示方法.首先对文本进行分词,去停用词等预处理,基于Spark ML计算出每个词语的词频和逆文档频率,同时计算词语的词向量.使用词语的TF-IDF值作为词向量的权重,将文本表示为加权词向量,再使用SVM分类器进行分类.在THUNews数据集上进行实验.实验结果表明,该方法相比于传统的TF-IDF算法、平均Word2Vec词向量文本表示,可以提升分类的精度.
Text Classification Method Based on Weighted Word Vector on Spark Platform

蔡宇翔、王佳斌、郑天华

展开 >

华侨大学工学院,泉州 362021

Spark 文本分类 TF-IDF(term frequency-inverse document frequency) Word2Vec 支持向量机 文本表示

2022

现代计算机
中大控股

现代计算机

影响因子:0.292
ISSN:1007-1423
年,卷(期):2022.28(3)
  • 9