基于大规模微博语料的新冠肺炎疫情舆情分析

潘昌铭¹

扫码查看

作者信息

1. 华中科技大学
折叠

摘要

自新冠肺炎疫情爆发以来，人类的生命健康受到严重威胁，各国的经济也遭受了巨大的损失，新冠肺炎疫情成为了每一个人都关心的话题。伴随着一系列“居家隔离”、“保持社交距离”等防疫政策，人们有了更多时间和理由在社交媒体上关注疫情的发展，参与相关内容的讨论。新浪微博作为最大、最有影响力的中文社交媒体之一，在疫情期间成为了人们获取和传播疫情信息的重要平台，也沉淀了大量的舆情信息。使用自然语言处理技术对这些舆情信息进行挖掘，有助于真实、客观地还原疫情舆情的演进规律，发现网民在疫情期间关心的重点内容，揭示他们对待疫情事件的观点和态度。目前，针对新冠肺炎疫情舆情的研究内容较少，而已有的研究也存在理论性强、语料支撑数量较小、研究结果较为粗疏等缺点。为此，本文选取一个时间跨度为四个月、含有三千多万条微博文本的疫情数据集为对象进行舆情挖掘和分析。具体的工作主要包括以下几个方面：（一）语料预处理。为了得到较为干净的语料，首先针对微博短文本的特点分门别类地进行噪声清洗，然后进行分词和停用词处理。（二）文本表示。为了得到质量较高的本文表示，采用word2vec将语料映射到一个低维、稠密的向量空间，并对word2vec的参数展开详细的实验讨论，以确保它们能够最好地适配本文所研究的语料。（三）文本聚类和舆情分析。为了提高聚类质量和尽可能细粒度地挖掘舆情，首先基于每日微博文本的数量对整个舆情演变周期进行划分；然后分别在每个阶段使用K-means进行聚类，根据聚类结果和话题标签统计情况进行主题归纳；再使用词云图对每一个簇的高频词进行可视化分析。基于以上工作，本文得出了较为丰富的结论。语料预处理方面，微博文本具有内容扩展性、语义载体多样性和不规范性三大特征和一些新趋势，微博语料的噪声可以分为表情类、标签类、话题类和无关微博四种。文本表示方面，加入了新冠疫情词汇的类比推理任务显示：CBOW模型、负采样、向量维数200，窗口大小9是适配本文语料的最优训练参数；舆情演变周期方面，新冠肺炎疫情的微博舆情呈现出明显的“双峰”走势，据此将整个舆情周期划分为潜伏期、第一次增长期、第一次衰退期、第二次增长期和波动期五个阶段。文本聚类方面，剔除无关内容后得到34个有效簇和34张词云图。舆情分析方面，在整个疫情舆情周期，网友关心的主要话题可以分为“新冠肺炎本身”、“前线动态”、“疫情形势”、“抗疫事迹”和“疫情生活”五大类。在不同的阶段，网友关注的重点既有相同也有不同之处。基于舆情分析的结论，本文又尝试给出五条舆情建议。本文基于大规模的微博语料，使用自然语言处理技术进行舆情的挖掘，取得了较好的成果，无论对于相关的技术如何适配微博短文本，还是细粒度地发现在疫情发展的不同阶段网民关注的重点内容，都有着积极的意义。

关键词

新冠肺炎疫情/舆情分析/语料预处理/文本表示/文本聚类

引用本文复制引用

授予学位

硕士

学科专业

语言学及应用语言学

导师

刘根辉

学位年度

2021

学位授予单位

华中科技大学

语种

中文

中图分类号

段落导航