摘要
现如今,随着互联网的飞速发展,人们能够在各类平台上发布关于特定对象的文本内容。区别于数值型数据,这些文本内容反映了人们的主观意见,表达了发布者所持有的情感态度,使得文本成为最常见的情感宣泄工具。因此,对文本进行情感分析,挖掘其中所蕴含的情感态度,对决策制定、服务调整、舆情监管等方面有着重大的理论意义与应用价值。然而,文本情感无法像常规统计信息直接获取,且现有研究工作对文本情感的处理主要集中于文本情感分类,任务形式较为单一。因此,本文着眼于文本类型数据,围绕文本情感这一主线,将情感因素融入至不同文本处理场景中,从而为常规文本处理方法引入新的“维度考量”。 本文重点关注的问题包括:首先,研究基于词语共现的文本情感极性分析。该问题以词语为单位,通过明确词语的情感极性,进而有效判断出给定文本属正向情感或负向情感;其次,研究带有情感增强的自学习文本集成。该问题针对众包场景下的评论文本,旨在将给定对象的大段评论内容整合成较短的集成文本,并对集成文本做情感增强处理;最后,研究带有情感融合的多人物会话环境下文本情感预测。该问题分析多人物会话场景中历史文本的情感变化,以此推测未来时刻待发布文本所属情感类别。 此外,本文的创新点主要包括:1)提出“两方面”词典扩展,结合当前文本上下文,修正文中已知词汇情感极性,并推测文中未知词汇情感极性,以此克服词语的不可罗列性与情感极性模糊性。实验表明,与现有方法相比,依靠“两方面”词典扩展进行文本情感极性分析总体上可取得更为可观的精度指标;2)采用自学习方法完成文本集成,仅需提供源文档便可进行模型训练并自动产生集成文本,由此避免为获取集成文本内容“金标准”所耗费的数据成本;此外,在自学习过程中注入情感增强知识,从客观角度突显集成文本情感强度,不论具体正负情感倾向。实验表明将自学习方法与情感增强机制相结合,能够使所产生的集成文本在内容质量与情感强度两方面总体取得最优水平;3)借鉴时间序列预测思想,以确保在文本内容未知时亦可推测出待发布文本情感;此外,本文在多人物会话场景下选取一个预测目标,在进行文本情感预测前首先捕捉其他参与者对预测目标的情感刺激,将预测目标与其他参与者所发布文本情感相融合,综合考虑后得出文本情感预测结果。实验表明将情感融合机制添加至基于时间序列的文本情感预测过程中,总体上可取得最优文本情感预测精度。 基于上述研究工作,本文将所研究关键技术进行组合与调整,最终形成一套完整的带有情感增强与情感融合的文本情感预测方法,并将其应用至电影月评情感预测任务上。实验表明,与其他现有方法相比,将所研究关键技术进行组合与调整,能够在电影月评情感预测任务上取得较明显的情感增强效果与较优的文本情感预测精度。