首页|基于微博的舆情分析系统的研究及实现

基于微博的舆情分析系统的研究及实现

严洲翔

基于微博的舆情分析系统的研究及实现

严洲翔1
扫码查看

作者信息

  • 1. 华中科技大学
  • 折叠

摘要

随着互联网的持续高速发展,越来越多的人们开始使用互联网来获取、发布信息。由于互联网的私密性和自由性,互联网上每天产生了大量的能够反映人们内心真实想法的信息,而微博作为我国最大的网络社交平台,因此对微博的舆情分析就有了重要的意义。 因为微博是一种典型的短文本,而且每天的产生量巨大,传播极为迅速,所以传统的文本分析方法无法满足微博短文本的分析需求,于是计算机技术被用于设计并实现一个基于微博的舆情分析系统。 微博舆情分析系统将分为四个模块。第一个模块基于Scrapy框架实现对微博的模拟登陆并爬取微博文本数据并将数据进行过滤,然后保存到本地MongoDB数据库;第二个模块使用jieba分词对微博文本内容进行分词并根据自定义的停用词词典过滤掉分词结果中的停用词;第三个模块使用TF-IDF对文本进行两次加权,第一次的目的是为了结合jieba分词的语料库进行特征提取,第二次加权的目的是为了结合微博测试语料库进行特征重排,保证了提取出来的关键词是每个微博短文本的最核心词汇。然后使用VSM向量空间模型对文本建模;第四个模块为实验,实验平台为一台拥有酷睿i5四核处理器CPU、16G内存、250G固态存储使用Windows10操作系统的计算机。实验以欧氏距离作为文本相似度的评判标准,使用K-Means聚类算法以及基于K-Means改进的K-Means++和Mini Batch K-Means算法对微博文本进行聚类分析,并通过实验调参,找到了使得聚类结果最好的参数。然后根据类簇的大小表示话题的热度,以类簇的中心表示话题,提取出了文本中的热门话题并将结果展示。最后根据实验室结果,在使用K-Means++算法,并且聚类中心数为125,每条微博文本保留5个关键词时聚类结果最好。实验可以证明舆情分析系统是一个可行的、具有应用价值的系统。

关键词

网络社交平台/舆情分析/文本聚类/话题提取

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

谢长生

学位年度

2018

学位授予单位

华中科技大学

语种

中文

中图分类号

TP
段落导航相关论文