融合表情与拼音的中文微博情感分析研究

卢昱波¹

扫码查看

作者信息

1. 山东科技大学
折叠

摘要

随着互联网的覆盖率和手机移动上网的普及率的不断提升，微博由于其自身的开放共享、实时分享的特点，使其逐渐成为了人们的主流社交平台之一。每个人的兴趣特点不同，对话题或事件也有着不同的看法或态度，每天产生数以亿计的主观评论数据。因此从浩如烟海的数据中提取出我们关心的观点及看法，不仅有利于政府对于民情民意、社会舆论的整体把控，而且有利于企业通过收集人们对于产品、服务的反馈制定相应的策略。目前对于中文微博的研究更多侧重于文本语句，而忽略了表情和中文的语言特征等重要信息。但是对于中文微博，即使是一个表情也体现了用户情感及态度，甚至出现情感翻转的情况。因此基于中文微博的特点，主要进行了以下三方面的研究。（1）基于中文笔画的幽默语料训练。以cw2vec模型为基础，针对中文幽默语料，提出了幽默语料的文本训练模型。对微博表情和网络俚语进行了收集、处理与分析，将汉字的笔画特征与微博表情和网络俚语相结合，构造解释向量并建立模型。根据实验结果，使用基于中文笔画模型训练后的幽默语料处理效果更佳。（2）融合表情的中文微博情感分析模型。将表情特征加入到情感分析中，并提出了融合表情的中文微博情感分类模型：E-BiLSTM+Att（Emoticon''sBidirectionalLSTMandAttention）。在模型中将文本与表情进行分类处理，文本通过BiLSTM来获取上下文的关联特征，多个表情取平均值处理，然后将文本向量与表情向量拼接，使用注意力模型重新分配权重，关注重要的特征，最后通过Softmax函数进行情感分类。通过实验对比，提出的融合表情的中文微博情感分类模型取得了较好的分类效果。（3）融合拼音的中文微博情感分析模型。梳理了网络流行语，提出了融合拼音的中文微博情感分析模型：P-E-BiLSTM+Att（PinyinEmoticon''sBidirectionalLSTMandAttention），模型中加入了拼音格式的文本，并将其转换为对应的向量，拼音向量使用BiLSTM和注意力模型训练，词向量和表情向量使用E-BiLSTM+Att模型进行训练，将拼音向量、词向量与表情向量的融合向量进行拼接，通过Softmax函数进行情感分类。最后通过实验与不同的模型进行比对，验证了提出的融合拼音的中文微博情感分析模型的准确性和有效性。

关键词

情感分析/中文文本/BiLSTM/注意力机制/Cw2vec模型

引用本文复制引用

授予学位

硕士

学科专业

图书情报与档案管理

导师

刘太安

学位年度

2021

学位授予单位

山东科技大学

语种

中文

中图分类号

段落导航