摘要
自新冠肺炎疫情爆发以来,人类的生命健康受到严重威胁,各国的经济也遭受了巨大的损失,新冠肺炎疫情成为了每一个人都关心的话题。伴随着一系列“居家隔离”、“保持社交距离”等防疫政策,人们有了更多时间和理由在社交媒体上关注疫情的发展,参与相关内容的讨论。新浪微博作为最大、最有影响力的中文社交媒体之一,在疫情期间成为了人们获取和传播疫情信息的重要平台,也沉淀了大量的舆情信息。使用自然语言处理技术对这些舆情信息进行挖掘,有助于真实、客观地还原疫情舆情的演进规律,发现网民在疫情期间关心的重点内容,揭示他们对待疫情事件的观点和态度。 目前,针对新冠肺炎疫情舆情的研究内容较少,而已有的研究也存在理论性强、语料支撑数量较小、研究结果较为粗疏等缺点。为此,本文选取一个时间跨度为四个月、含有三千多万条微博文本的疫情数据集为对象进行舆情挖掘和分析。具体的工作主要包括以下几个方面: (一)语料预处理。为了得到较为干净的语料,首先针对微博短文本的特点分门别类地进行噪声清洗,然后进行分词和停用词处理。 (二)文本表示。为了得到质量较高的本文表示,采用word2vec将语料映射到一个低维、稠密的向量空间,并对word2vec的参数展开详细的实验讨论,以确保它们能够最好地适配本文所研究的语料。 (三)文本聚类和舆情分析。为了提高聚类质量和尽可能细粒度地挖掘舆情,首先基于每日微博文本的数量对整个舆情演变周期进行划分;然后分别在每个阶段使用K-means进行聚类,根据聚类结果和话题标签统计情况进行主题归纳;再使用词云图对每一个簇的高频词进行可视化分析。 基于以上工作,本文得出了较为丰富的结论。语料预处理方面,微博文本具有内容扩展性、语义载体多样性和不规范性三大特征和一些新趋势,微博语料的噪声可以分为表情类、标签类、话题类和无关微博四种。文本表示方面,加入了新冠疫情词汇的类比推理任务显示:CBOW模型、负采样、向量维数200,窗口 大小9是适配本文语料的最优训练参数;舆情演变周期方面,新冠肺炎疫情的微博舆情呈现出明显的“双峰”走势,据此将整个舆情周期划分为潜伏期、第一次增长期、第一次衰退期、第二次增长期和波动期五个阶段。文本聚类方面,剔除无关内容后得到34个有效簇和34张词云图。舆情分析方面,在整个疫情舆情周期,网友关心的主要话题可以分为“新冠肺炎本身”、“前线动态”、“疫情形势”、“抗疫事迹”和“疫情生活”五大类。在不同的阶段,网友关注的重点既有相同也有不同之处。基于舆情分析的结论,本文又尝试给出五条舆情建议。 本文基于大规模的微博语料,使用自然语言处理技术进行舆情的挖掘,取得了较好的成果,无论对于相关的技术如何适配微博短文本,还是细粒度地发现在疫情发展的不同阶段网民关注的重点内容,都有着积极的意义。