摘要
互联网技术的持续进步带动了自媒体的快速发展,以微博、Facebook、Twitter等为代表的自媒体为用户提供了表达观点和抒发个人情感的平台。互联网中积累了大量含有个人的一些观点论述以及情感倾向的文本信息,对这些文本中所蕴含的情感及观点进行分析,得出人群对特定事件的情感变化以及与情感相关的关系,为获取舆论导向、产品的社会评价等起到重要作用。 文本情感分析,又称之为文本观点挖掘,特指针对文本内部潜在的情感、态度、观点等类似信息的提取和分类,是自然语言处理领域中的一项基础而重要的任务。本篇文章首先对中文文本情感二分类进行了研究,提出了一种基于BiLSTM-CNN串行混合模型的二元中文文本情感分析方法。其次,由于二元文本情感分析对情感的划分粒度太大,不能满足更多现实环境的需要,因此本文对中文文本情感三分类进行了研究,依据自然语言的特点,准确理解文本语义信息,大到文本的上下文和句子结构,小到文本的局部语义信息和词性的影响,提出了一种基于特征融合的三元中文文本情感分析方法。本文的主要研究工作如下: 针对目前文本情感分析方法中存在模型泛化能力不强,文本语义理解不准确导致文本情感分析模型的准确率不高等问题,提出了一种基于BiLSTM-CNN串行混合模型的二元中文文本情感分析方法。该方法首先利用Word2Vec词汇向量化工具对评论文本实现文本词汇到实数向量的转化;其次使用BiLSTM语言模型提取评论文本的上下文信息,并对已提取的上下文信息利用CNN提取文本的局部语义信息;最后使用Softmax对文本所表达的个人情感倾向性进行分类。通过实验验证,该方法在一定程度上可以有效的提高文本情感分析的性能。 针对目前文本情感分析方法中由于一词多义、不能准确理解文本所表达的语义信息,导致文本情感分析性能不佳、准确率不高等问题,提出了一种基于特征融合的三元中文文本情感分析方法。该方法首先利用GloVe词汇向量化工具将离散的文本词汇映射到低维实数空间,并在此过程中融入词汇的词性从而解决一词多义的问题;其次利用TextCNN从不同的视野提取文本的局部语义信息,利用引入Self-Attention的BiGRU从文本句子结构和文本上下文信息的角度提取文本全局语义信息;然后将提取的局部语义信息和全局语义信息进行特征融合;最后使用Softmax对文本情感进行分类,在标准微博数据集中取得了良好的文本分类效果。