首页|多主题混合的中文评论情感分析研究

多主题混合的中文评论情感分析研究

周浩

多主题混合的中文评论情感分析研究

周浩1
扫码查看

作者信息

  • 1. 太原理工大学
  • 折叠

摘要

随着互联网的发展,通过自媒体发表的评论文本大量涌现。这些评论既有来自电子商务网站的商品评价,也有通过自媒体发表的对自己所经历的事物观点或看法。依据这些评论可解决多方面的问题,例如辅助用户消费决策、帮助商家优化商品、进行互联网舆情分析等。但对评论整体的情感分析不能在商品属性上帮助用户减轻信息过载与认知成本,因此针对评论中多个主题的情感分析研究受到了广泛关注。 多主题混合的情感分析研究包括评价对象提取和情感倾向性分析两个子任务。针对传统情感分析方法不能细化用户情感倾向且无法明确商品属性的缺陷,本文结合中文语言特点,在提取评价对象过程中融合中文词语内部位置信息与词性信息,在情感倾向性分析过程中引入修饰词信息并添加评价实体与情感词的依赖关系,通过深度神经网络模型,对评论中的多个情感主题进行情感分析。本文的主要研究工作与创新点如下: (1)进行基于词语内部位置信息与词性信息的评价对象提取研究。首先分析词语内部信息,通过字符表征优化策略,按词语内部位置为字符分配两个向量,实现同一个字符在不同词语中有不同的表征,弥补了序列标注过程中忽略的词语内部信息。其次考虑到词性信息,相同词性的词语在句子中常常扮演相似的角色。因此通过对中文评论进行词性标注,使用神经网络模型学习词性特征获得中文评论的词性规则,深化对词性信息的理解。 (2)分析序列标注模型在评价对象提取中的优势。将评价对象提取问题转换为序列标注问题后,为充分捕获融合的词语内部位置信息与词性信息,提取模型引入双向长短期记忆网络(Bi-LSTM)学习文本序列,配合条件随机场(CRF)层克服标签偏差,从而提高评价对象提取的准确率。此外针对标注结果无法匹配<评价实体,情感词>对的现状,优化标注标签。在BIO标注标签基础上增加标记,记录当前标注对象是否存在匹配的评价实体或情感词,从而使得标注结果具备结构特性,优化评价对象提取的结果。 (3)进行融合情感修饰词与评价实体的情感倾向性分析研究。由于评价对象提取结束后,只需对提取出的情感词进行情感倾向性判断,严重缺少特征信息。一方面,利用已有情感资源结合评论文本构建情感修饰集。从否定词、程度级别词、转折词与虚拟语气等方面为情感词添加修饰内容,将修饰词作为情感词的情感要素信息。并将修饰词以前缀形式生成情感短语,丰富情感特征。另一方面,考虑到情感词的情感倾向严重依赖于所评价的对象,因此把情感词对应的评价对象作为第二个重要的情感要素,并以前缀的形式添加到情感短语中,构成情感短句,补充情感词的领域依赖信息,最终提高情感倾向分析模型的分类性能。

关键词

中文评价/情感倾向分析/多主题混合/双向长短期记忆网络/条件随机场

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

王莉

学位年度

2019

学位授予单位

太原理工大学

语种

中文

中图分类号

TP
段落导航相关论文