摘要
随着互联网的快速发展,人们越来越喜欢在各种各样的电子商务平台和社交平台上表达情绪和阐述观点,像微博、脸书、淘宝、亿贝等诸如此类的互联网平台每天都会生成海量的文字评论。互联网产生的这些大数据是极具潜力的,如果能通过情感分析技术获取文中观点发表者的情感倾向,可以为社会创造巨大价值。随着现代硬件计算性能的快速提升,深度学习技术迎来了最美好的时代。基于深度学习的情感分析技术在预测准确性和效率上都有着优异的表现,受到了研究学者们越来越多的关注。为了进一步探索基于深度学习的情感分析技术,本文针对粗粒度文本情感分析任务和方面级文本情感分析任务进行了重点研究,主要工作包括以下几点: (1)针对粗粒度文本情感分析任务,本文提出了改进胶囊网络模型。胶囊网络模型无法有效提取长文本上下文语义转折信息,且不能有针对性的对文本中的关键内容进行重视,所以本文引入了嵌入增强模块。该模块中,BLSTM层通过两个LSTM分别从正反两个方向循环读入文本,可以有效的对文本上下文关系进行建模。注意力层可以计算出每个词的重要性,有利于降低无关词对文本全局特征的影响。另外,动态路由算法有效降低了卷积层中池化操作带来的信息损失影响。改进胶囊网络模型在MR、IMDB和CIN等数据集上进行了粗粒度文本情感分类实验,准确率分别为80.12%、89.14%和76.57%。 (2)针对方面级文本情感分析任务,本文提出了基于BERT和联合注意力机制的预测模型。BERT模型基于多层Transformer结构,并通过大量语料进行半监督的预训练,可以提供更具有鲁棒性和精确描述的文本表示。本文结合方面级情感分析任务的特点,针对BERT的网络结构设计了下游的联合注意力网络。该注意力网络的核心是实现上下文句子与方面词、BERT的集成嵌入之间的充分交互,以更好的提取上下文句子中的关键特征,从而提升方面级情感分析的效果。该模型在Restaurant、Laptop和Twitter等数据集上准确率分别为84.91%、78.36%和75.43%。另外,本文还探索了训练方式和权重再初始化这两种BERT微调优化方法对模型性能的影响,并验证了联合领域训练方式有利于提升模型性能。