首页|中文短文本情感分类方法的研究与实现

中文短文本情感分类方法的研究与实现

杨鹏飞

中文短文本情感分类方法的研究与实现

杨鹏飞1
扫码查看

作者信息

  • 1. 河北科技大学
  • 折叠

摘要

随着当前的互联网产业飞速发展,各种网络应用如微博、电子商务、论坛、博客应运而生。伴随着这些应用而来的是海量的网络文本数据。这些数据中所蕴含的观点信息不仅对网络应用有丰富的价值,而且对用户来说也是很重要的。为了从海量文本数据中提取出有效的观点信息,情感分类这个研究领域应运而生。 本文使用有监督的机器学习方法,对中文短文本进行情感分类方法进行了研究和实现。基于机器学习方法本文使用了三种开源的工具,分别用于训练词向量,挖掘词语之间的浅层语义;提取语句结构特征中的核心词位置;进行情感分类和情感极性预测。本文的主要研究内容如下: 1)为了更近一步的提高分类的准确性,利用word2vec这一词向量工具,将海量文本数据转化为高维度空间中的向量值,通过向量之间的余弦值,获取词语之间语义的相近程度。通过实验可以验证,这种方法可以很好地提取出近义相似特征,将近义相似特征扩充到情感特征词典后,为后续的情感特征提取提供支持。 2)给出了基于句式结构的情感分类方法。通过分析网络文本中的的正负情感语句,可以发现语句都是有一定结构特征的。在句式结构一定的情况下,配合相应的情感词,就可以确定短文本的情感类型。本文使用情感特征词库以及特定的句式结构词作为情感特征,将情感特征输入到libsvm做分类。通过实验可以验证,这种方法有着很好的分类效果。 3)基于语义的情感分类,本文使用两种方式来进行。一种是进行回归预测,也就是进行情感极性值预测。另一种是进行情感二分类,在进行分类之前使用PCA方法对情感特征进行了降维处理。通过实验可发现,本文基于语义方法的情感分类有着很好的效果。 4)利用基于语义情感分类方法,对微博语料进行情感分类,将分析结果应用到舆情分析领域,开发实现了微博舆情分析系统。

关键词

中文短文本/情感分类/机器学习/语句结构

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

张冬雯;丁保忠

学位年度

2016

学位授予单位

河北科技大学

语种

中文

中图分类号

TP
段落导航相关论文