现代计算机2022,Vol.28Issue(3) :25-30.DOI:10.3969/j.issn.1007-1423.2022.03.005

Spark平台下基于加权词向量的文本分类方法

Text Classification Method Based on Weighted Word Vector on Spark Platform

蔡宇翔 王佳斌 郑天华
现代计算机2022,Vol.28Issue(3) :25-30.DOI:10.3969/j.issn.1007-1423.2022.03.005

Spark平台下基于加权词向量的文本分类方法

Text Classification Method Based on Weighted Word Vector on Spark Platform

蔡宇翔 1王佳斌 1郑天华1
扫码查看

作者信息

  • 1. 华侨大学工学院,泉州 362021
  • 折叠

摘要

针对Spark平台下文本分类中文本表示方法不够完善,导致分类准确率低的问题,结合Spark ML下的TF-IDF算法和Word2vec模型,提出一种基于Spark ML的加权词向量文本表示方法.首先对文本进行分词,去停用词等预处理,基于Spark ML计算出每个词语的词频和逆文档频率,同时计算词语的词向量.使用词语的TF-IDF值作为词向量的权重,将文本表示为加权词向量,再使用SVM分类器进行分类.在THUNews数据集上进行实验.实验结果表明,该方法相比于传统的TF-IDF算法、平均Word2Vec词向量文本表示,可以提升分类的精度.

关键词

Spark/文本分类/TF-IDF(term/frequency-inverse/document/frequency)/Word2Vec/支持向量机/文本表示

引用本文复制引用

出版年

2022
现代计算机
中大控股

现代计算机

影响因子:0.292
ISSN:1007-1423
参考文献量9
段落导航相关论文