Spark平台下基于加权词向量的文本分类方法

Text Classification Method Based on Weighted Word Vector on Spark Platform

蔡宇翔 ¹王佳斌 ¹郑天华¹

扫码查看

作者信息

1. 华侨大学工学院,泉州 362021
折叠

摘要

针对Spark平台下文本分类中文本表示方法不够完善,导致分类准确率低的问题,结合Spark ML下的TF-IDF算法和Word2vec模型,提出一种基于Spark ML的加权词向量文本表示方法.首先对文本进行分词,去停用词等预处理,基于Spark ML计算出每个词语的词频和逆文档频率,同时计算词语的词向量.使用词语的TF-IDF值作为词向量的权重,将文本表示为加权词向量,再使用SVM分类器进行分类.在THUNews数据集上进行实验.实验结果表明,该方法相比于传统的TF-IDF算法、平均Word2Vec词向量文本表示,可以提升分类的精度.

关键词

Spark/文本分类/TF-IDF(term/frequency-inverse/document/frequency)/Word2Vec/支持向量机/文本表示

引用本文复制引用

出版年

2022

现代计算机

中大控股

现代计算机

影响因子：0.292

ISSN：1007-1423

参考文献量9

段落导航