首页|融合表情与拼音的中文微博情感分析研究

融合表情与拼音的中文微博情感分析研究

卢昱波

融合表情与拼音的中文微博情感分析研究

卢昱波1
扫码查看

作者信息

  • 1. 山东科技大学
  • 折叠

摘要

随着互联网的覆盖率和手机移动上网的普及率的不断提升,微博由于其自身的开放共享、实时分享的特点,使其逐渐成为了人们的主流社交平台之一。每个人的兴趣特点不同,对话题或事件也有着不同的看法或态度,每天产生数以亿计的主观评论数据。因此从浩如烟海的数据中提取出我们关心的观点及看法,不仅有利于政府对于民情民意、社会舆论的整体把控,而且有利于企业通过收集人们对于产品、服务的反馈制定相应的策略。目前对于中文微博的研究更多侧重于文本语句,而忽略了表情和中文的语言特征等重要信息。但是对于中文微博,即使是一个表情也体现了用户情感及态度,甚至出现情感翻转的情况。因此基于中文微博的特点,主要进行了以下三方面的研究。 (1)基于中文笔画的幽默语料训练。以cw2vec模型为基础,针对中文幽默语料,提出了幽默语料的文本训练模型。对微博表情和网络俚语进行了收集、处理与分析,将汉字的笔画特征与微博表情和网络俚语相结合,构造解释向量并建立模型。根据实验结果,使用基于中文笔画模型训练后的幽默语料处理效果更佳。 (2)融合表情的中文微博情感分析模型。将表情特征加入到情感分析中,并提出了融合表情的中文微博情感分类模型:E-BiLSTM+Att(Emoticon''sBidirectionalLSTMandAttention)。在模型中将文本与表情进行分类处理,文本通过BiLSTM来获取上下文的关联特征,多个表情取平均值处理,然后将文本向量与表情向量拼接,使用注意力模型重新分配权重,关注重要的特征,最后通过Softmax函数进行情感分类。通过实验对比,提出的融合表情的中文微博情感分类模型取得了较好的分类效果。 (3)融合拼音的中文微博情感分析模型。梳理了网络流行语,提出了融合拼音的中文微博情感分析模型:P-E-BiLSTM+Att(PinyinEmoticon''sBidirectionalLSTMandAttention),模型中加入了拼音格式的文本,并将其转换为对应的向量,拼音向量使用BiLSTM和注意力模型训练,词向量和表情向量使用E-BiLSTM+Att模型进行训练,将拼音向量、词向量与表情向量的融合向量进行拼接,通过Softmax函数进行情感分类。最后通过实验与不同的模型进行比对,验证了提出的融合拼音的中文微博情感分析模型的准确性和有效性。

关键词

情感分析/中文文本/BiLSTM/注意力机制/Cw2vec模型

引用本文复制引用

授予学位

硕士

学科专业

图书情报与档案管理

导师

刘太安

学位年度

2021

学位授予单位

山东科技大学

语种

中文

中图分类号

TP
段落导航相关论文