摘要
数字信息时代的数据价值越发凸显,各领域越来越重视数据所蕴含的信息。然而随着时代的发展,数据早已不再是简单的数值型数据,越来越多的非结构化文本数据逐渐涌入人们的视野,从商品评论到求职信息,亦或新闻通告,文本数据改变了传统数据分析的局面,仅利用人工阅读或者专家打分的分析形式已不再能满足研究者的需求,利用文本数据的分析技术研究非结构化数据已经成为一项重要的研究任务。 如今,国内外计算机领域在文本数据分析方面已经取得了比较满意的成果,将其应用在其他领域的研究问题上已成为一种顺应时代发展的要求。目前应用较为广泛的有构建搜索热度指数、舆情情绪指数以及市场情绪指数等,但对已逝世、微博不再更新、社区留言却在不断刷屏的公众人物李文亮微博评论这类特殊舆论数据的研究不多。因此本文以此类评论数据为例,借鉴学术界较为成熟的主题挖掘算法,对微博评论进行分析。在数据预处理后,首先利用描述性统计分析方法对数据进行整体概览;其次利用传统的文本分类方法对评论数据进行情感分类,按阶段分析评论的情感极性与情绪分布;最后,对比三种主题模型:潜在迪利克雷分布(LDA)、词对主题模型(BTM)、结构主题模型(STM)对评论数据进行主题挖掘,揭示不同主题的分布,同时以情感分类数值结果作为二元协变量,并添加时间变量、主题内容协变量,构建线性模型分析主题流行度的演变趋势。 研究结果表明:(1)评论数量在一年中除特定日期出现较大波动外,整体随时间逐渐下降后趋于平缓但一直延绵不断,体现数据的特殊性。留言内容上除“李医生”外,“晚安”、“致敬”等词汇出现频率较高,且二者分别位于普通日和特殊日的高频词榜首,结合高频共现词结果初步推断出评论区留言以祝福类与日常交往类居多。(2)对评论情感进行二分类时,积极评论的数量在各阶段始终高于消极评论。进行情绪多分类时,“好”、“乐”类情绪在各阶段占主流趋势,“哀”类情绪次之,一方面呈现出评论情感的积极性,另一方面为主题模型做数据准备。(3)对比LDA、BTM、STM的主题挖掘结果,发现LDA、BTM两种模型均存在一定局限性。相对而言,STM得到的结果较为优良,其不仅提供了所挖掘的主题词及与每个主题高度相关的评论原文,而且揭示了不同主题的概率分布及主题的情感倾向。结合人工阅读汇总便可将主题分为8大类,其中“交往-分享生活”和“交往-节日祝福”类评论在所有评论中占主要部分。STM的情感挖掘结果也展示出较为积极的一面,此外其还揭示了主题热度在一年中的演变情况,其中受时间显著影响的12个主题中,初期热度上涨的主题数量低于热度下降的主题数量。 综合全文分析结果,本文一方面从统计分析方法与计算机技术运用的角度,另一方面从心理学的角度分析了公众人物背后的舆情发展走势,为未来类似舆情分析提供更多视角,有助于更加全面的关注社会舆情并为政府控制舆情和制定决策提供技术参考路径。