摘要
21世纪以来,伴随着互联网技术的发展,特别是移动互联网的飞速发展,各类网络应用快速普及,人们越来越受益于网络所带来的便捷服务。互联网用户数爆发式增长,微信、QQ、推特、微博等社交媒体用户数数以亿计。数据显示,新浪微博2018年月活用户量已经达到4.62亿人次。人们通过微博、微信朋友圈等发表自己的心情,以及对于各类事件的观点、看法等,这些数据信息能够很直观的反映出社会舆论情况。文本情感分析,即对文本数据所表达的情感观点(喜、怒、哀、乐、积极、消极等)进行发掘。有效的利用网络上的大量用户观点信息,通过情感分析方法,发掘用户对特定问题或产品所表达的主观情感和所持有的观点,具有重大的研究意义。 本文拟基于深度神经网络技术,通过分析中文的特点,基于卷积神经网络和循环神经网络模型等提出了有效的中文情感分析方法。具体的,本文主要取得了如下研究成果: 1)针对中文网络评论文本的情感极性分析问题,本文提出了基于词嵌入的双向长短时记忆循环网络的情感分类模型textEBRNN,该模型首先通过词嵌入技术训练大量中文语料,进行中文文本的词向量表征,然后通过双向长短时记忆网络进行进一步情感特征提取,最后通过分类网络建立二分类模型进行情感分类。通过对比实验分析,相对于支持向量机等传统的机器学习方法以及textCNN和单向长短时记忆网络等模型,该方法取得了更高的分类准确率,证明了该方法的有效性。 2)针对中文网络评论文本的情感极性分析问题,本文进一步提出了带注意力机制的双向长短时记忆网络模型,该模型在原有网络模型的基础上,充分考虑了序列中各特征的权重分布,进一步提升了模型的准确率,证明了此模型的有效性。 3)针对中文微博的情绪分析问题,设计实现了使用卷积神经网络与双向长短时记忆网络结合的深度情绪多分类融合模型以及带注意力机制的融合模型,融合模型通过对比长短时记忆网络模型和卷积神经网络模型以及双向长短时记忆网络模型,取得了更好的多分类效果,以此证明了两种网络的融合模型在中文微博情绪多分类问题上的有效性。 4)本论文进行了神经语言模型预训练词向量的研究,并在实验中对比了多组预训练词向量与非预训练词向量的网络模型,证明了神经语言模型提取浅层文本特征的有效性,在文本分析问题中神经语言模型能够较好的提取浅层文本特征。