首页|基于深度学习的微博短文本情感倾向分析

基于深度学习的微博短文本情感倾向分析

李维森

基于深度学习的微博短文本情感倾向分析

李维森1
扫码查看

作者信息

  • 1. 湘潭大学
  • 折叠

摘要

随着社交网络媒体的不断快速发展与进步,互联网上的文字信息急剧膨胀。微博作为目前中国最受欢迎的微博客服务,每时每刻都在产生海量的数据,这些数据包含了大量的有关网民情绪与态度的信息。如果将情感分析技术应用到微博的海量数据上,可以从海量数据中发掘出价值,利用这些数据,将有助于完善互联网的舆情监测系统,以检测物理世界中的异常或意外事件。 本文将主要研索目标设定为中文短文微博,为此,本文主要做了关于以下方面的研究工作: (1)在微博数据的获取方面,本文设计了一个爬虫架构,并基于该架构实现了一个使用python语言编写的微博数据采集系统。该系统使用selenium通过模拟人工操作浏览器解决微博的身份认证问题。同时,参考聚焦爬虫的设计模式,有针对性地采集微博数据。该爬虫系统解决了逆向微博工程量大实现复杂,完全使用浏览器模拟操作文本采集过慢的问题,在理想情况下该爬虫系统的单线程采集速率可以达到每分钟约800条。 (2)在情感分析方面,考虑到情感词对文本情感表达的积极影响,本文整合了几个在中文情感分析领域常用的情感词典,设计了使用情感词对词向量进行权值调整的策略。为了验证该方法的有效性,本文通过将未调整的词向量和调整过的词向量分别输入TEXTCNN和LSTM,通过多次试验比较,结果表明在使用情感词对词向量进行调整之后,TEXTCNN在情感二分类任务上达到最高分类准确度84.1%,比未进行词向量调整时分类准确度提高了2.1%,证明对词向量的调整在微博情感分类问题上有正向积极影响。 (3)整合上述研究成果,对微博情感分类的系统进行了设计并对系统后台进行了实现。系统提供了对微博用户个人信息采集的接口与对关键字信息采集的接口,并且提供了对微博进行情感分析的接口,可以实现对微博数据的高效获取与对微博情感的简单分类,这为后续的研究打下良好铺垫。

关键词

短文本/情感分析/数据采集/深度学习

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

李志清

学位年度

2019

学位授予单位

湘潭大学

语种

中文

中图分类号

TP
段落导航相关论文