首页|面向语料库的微博情感分析研究

面向语料库的微博情感分析研究

万朔

面向语料库的微博情感分析研究

万朔1
扫码查看

作者信息

  • 1. 南京航空航天大学
  • 折叠

摘要

中文微博情感分析旨在挖掘网民在微博平台上对于热门话题时事的情感和观点。作为国内最大的社交媒体平台,新浪微博汇聚了上亿的网民,是政府、企业和个人的发声平台。对于微博热门话题的实时情感分析研究,可以在快节奏的时代把握稍纵即逝的信息,具有重大的社会意义和商业价值。当前的微博情感分析研究,大多注重于提高算法和模型的性能,忽视了缺乏大规模中文微博情感分析语料库这一事实。本文提出了一个语料库迭代框架,构建了一个较大规模的微博情感分析语料库,并在此基础上构建了一个专注于挖掘微博话题实时情感信息的情感分析平台。此外,本文尝试对微博文本的预处理规则进行标准化,并发布了一个微博文本预处理工具。本文的主要工作包括:? 构建了一个包含有671,053条语料的微博情感分析语料库:Senti-weibo2019。本文用信息检索对微博情感分析语料库的构建进行了形式化,将构建语料库的问题转化为提高召回微博情感精确率和召回率的问题。提出微博语料库迭代框架IDSL,用于语料库迭代过程中的去噪和扩展,进而避免语料库的腐烂。基于语料库训练的微博情感分类器,在测试集上达到了91.25%的情感分类精确率。? 发布微博文本预处理工具:weibo-preprocess-toolkit。本文对微博文本的预处理规则进行总结并将其打包发布为开源工具,实验证明了统一的文本预处理规则是构建文本语料库和最大化线上模型性能的基础。此外,本文提出爬虫并发频率控制算法,设计了一款健壮的微博爬虫,作为微博实时情感分析平台的数据源,也为语料库的迭代提供了充足的新鲜语料。? 构建了微博话题实时情感分析平台:Senti-weibo。该Web平台基于本文的微博爬虫、微博文本预处理工具和微博情感分析语料库构建而成,专注于对微博话题实时情感的挖掘,理论上可以实现微博上任意话题的实时情感追踪。特别地,本文展示了该平台对2019年微博上多个热门话题进行的情感分析,并验证了该情感分析平台的有效性。

关键词

情感分析/微博/语料库

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

李博涵

学位年度

2020

学位授予单位

南京航空航天大学

语种

中文

中图分类号

TP
段落导航相关论文