基于文本挖掘的“双减”政策下的微博评论情感分析

张业闻¹

扫码查看

作者信息

1. 华中师范大学
折叠

摘要

随着互联网行业的不断发展以及网络覆盖率的逐步扩张，包含各种各样社会、娱乐的信息和新闻在网络社交媒体上广泛传播，其中不乏普通网民对国家新出台政策的看法等线上评论。而这些网络文本数据中包含着网友们对新出台政策的态度和展望。面对海量的在线评论文本数据，一条条地通读来了解网友的看法是很占用时间也是没有必要的，如果用文本挖掘的相关技术提炼出网友们对于某事件的主要观点以及主要关注点，并进而分析网民对此事件的情感倾向，更容易把握网民们对事件的整体看法。故本文基于中文文本挖掘的理论知识和相关技术，对“双减”政策相关的微博评论进行研究，挖掘广大网民朋友对“双减”政策出台的一些看法，基于机器学习算法和主题模型对评论文本进行分析和挖掘工作，对中文文本评论数据进行“提纯”，意在用最快最精准的方式提取出评论文本数据中最有价值的信息。同时，本文所做的研究也为通过应用中文文本挖掘技术来挖掘教育政策型线上评论文本的任务提供了一些可供参考的解决思路和方法。本文在分析实例中用到的文本挖掘相关方法主要有主题模型、文本分类模型、语义网络分析和统计词频的词云图绘制方法。首先利用爬虫技术得到“双减”政策热门微博下的评论文本，通过人工标签的方式将文本分为积极和消极两类评论。然后采用python工具对爬取的文本数据进行数据预处理，再利用jieba分词包对清洗后的文字数据进行中文分词，并计算词频，按积极消极情绪评论两类分别绘制词云图。利用词袋模型和TF-IDF模型对文本数据进行向量化处理，形成了“双减”政策微博评论数据集。本文用基于情感词典和传统机器学习算法的两种方法分别进行情感分类任务，并通过比较发现，SVM模型在该数据集上的分类效果最优。其中情感词典选用知网官方情感词典，机器学习算法选择了KNN、Logistic回归、朴素贝叶斯分类器、随机森林和支持向量机五种常用的二分类模型。最后基于LDA主题模型和语义网络分析完成了对文本数据主题词的提取以及文本主题的分类，进而能够更直接地获取评论中的相关信息，进而分析网民们对于“双减”政策的情感倾向。

关键词

双减政策/主题模型/情感词典/机器学习

引用本文复制引用

授予学位

硕士

学科专业

应用统计

导师

李乐

学位年度

2022

学位授予单位

华中师范大学

语种

中文

中图分类号

段落导航