摘要
随着互联网技术的进步,社交媒体、电子商务蓬勃发展,越来越多的商品交易评论和社交评论出现在互联网中。因此,网络中的各种评论文本迅速膨胀。若依靠人工的方法难以对网上海量的信息进行收集和处理,因此需要进行文本分析从而帮助用户快速从数以亿计的评论中获取重要信息,情感分析技术应运而生。 基于词典法构建一个高质量词典需要大量的人力,机器学习方法过分依赖语句向量的特征,这些特征来自于人工选择导致选择不同的特征就会有不同分析结果。深度学习方法作为一种自主学习的分类方法,在不需要人工过多干预的条件下就可以在情感分析任务上取得较好结果。因此基于深度学习的自然语言分析成为了当前的研究热点。 针对传统文本情感分析方法正确率低,深度学习方法在训练、测试与分析效率低的缺陷,本文深入研究了基于深度学习的评论情感分析技术,把主成分分析法(PCA)的高效文本分类(Fasttext)方法作为文本向量生成算法,提高生成文本向量的质量。把门控循环神经网络(GRU)和卷积神经网络(CNN)结合,建立了Attention-CNN-GRU评论文本情感分析模型,提高情感分析结果的正确率和模型训练效率。具体研究内容如下。 为了提高文字转换后文本向量的整体质量,使用Word2vec的一种改进方法Fasttext。Fasttext方法利用了HashingTrick算法和分层Softmax算法分别对Word2vec使用的向量表示法和基本Softmax分类法进行改进。HashingTrick改进后,生成的输入词向量维数减少,再利用主成分分析法对词向量优化,提取主要特征使词向量维度进一步降低。并对Softmax分类法进行改进,建立基于分层Softmax的Huffman树,只需计算路径上所有非叶子节点词向量的贡献值,实现计算复杂度的降低。最终模型能够更快更高质量的输出文本向量。 为了获取更好的准确率和更短的训练测试时间,提出结合卷积神经网络和门控循环神经网络的Attention-CNN-GRU模型。传统神经网络相临神经元都是全连接,并且神经元之间无连接,样本处理相互独立,所以不能对时间序列变化处理。门控循环神经网络可以利用时序关系处理句子,存储历史上下文信息并能够考虑到之后的上下文信息。门控循环神经单元在长短期记忆神经单元基础上将忘记和记忆窗口合并,仅由更新门和重置门组成,减少了单元内部计算量,使得计算效率提高。针对不同词语对不同任务的重要程度不同,在CNN-GRU模型的基础上,添加注意力机制,得到Attention-CNN-GRU模型。卷积神经网络的作用则是通过不断训练挖掘评论文本中隐藏特征,进行组合达到特征学习选择的目的。 针对深度学习网络中关键参数对训练测试结果影响的问题,实验对比了学习率、弃权系数、批尺寸这三种参数对结果的影响。实验可以看出学习率遵循训练量越大学习率选小一点的规律,弃权系数的选取要找准适合的量,过大会导致模型效果下降,批尺寸也需要结合模型的效果择优选取。实验证明模型在评论情感分类任务上有着很高的正确率和更好的时间效率,对评论情感分析有理论和实用价值。