计算机科学2021,Vol.48Issue(9) :118-124.DOI:10.11896/jsjkx.210400280

基于Spark的舆情情感大数据分析集成方法

Public Opinion Sentiment Big Data Analysis Ensemble Method Based on Spark

戴宏亮 钟国金 游志铭 戴宏明
计算机科学2021,Vol.48Issue(9) :118-124.DOI:10.11896/jsjkx.210400280

基于Spark的舆情情感大数据分析集成方法

Public Opinion Sentiment Big Data Analysis Ensemble Method Based on Spark

戴宏亮 1钟国金 1游志铭 1戴宏明2
扫码查看

作者信息

  • 1. 广州大学经济与统计学院 广州 510006
  • 2. 华南理工大学软件学院 广州 510006
  • 折叠

摘要

随着移动互联技术的不断发展,社交媒体成为了公众分享观点和抒发情感的主要平台,在重大社会事件下对社交媒体文本进行情感分析能够有效监控舆情.针对现有中文社交媒体情感分析算法的准确性能和运行效率较低的问题,提出了一种基于Spark分布式系统的集成情感大数据分析方法(Spark Feature Weighted Stacking,S-FWS).该方法首先基于Jieba库预分词和PMI关联度完成新词发现;然后考虑词语重要度混合提取文本特征,并使用Lasso进行特征选择;最后改进传统Stacking框架忽略特征重要度的缺点,使用初级学习器的准确率信息对类概率特征进行加权处理并构造多项式特征,进而训练次级学习器.分别在单机模式和Spark平台下引入多种算法进行对比实验,实验结果证明所提S-FWS方法的准确性能和耗时性能具备一定优势,并且分布式系统能够大幅提高算法的运行效率,同时随着集群工作节点的增加,算法耗时逐渐降低.

关键词

情感分析/舆情/中文社交媒体/Spark/Stacking

引用本文复制引用

基金项目

出版年

2021
计算机科学
重庆西南信息有限公司(原科技部西南信息中心)

计算机科学

CSTPCDCSCD北大核心
影响因子:0.944
ISSN:1002-137X
被引量10
参考文献量2
段落导航相关论文