摘要
情绪原因对抽取是文本情感分析中重要的研究方向。对于电商评论带有负面感情色彩的文本而言,利用情绪原因识别技术可以挖掘客户对产品特定消极情感相对应的原因,从而改善产品质量、提高服务。相较于情绪原因识别,情绪原因对抽取是在未给出情绪子句标注的情况下,抽取具有因果关系的情绪子句与原因子句,因此,该项任务更具有挑战性。本文通过引入情感字典和知识图谱,开展情绪原因对抽取方法研究,主要研究工作如下: (1)数据集统计分析 通过对情绪原因对抽取数据集进行统计与分析,发现情绪子句中都包含有情感词,此外,大多数文档只含有一个情绪原因对,占所有文档数的89.77%,且大部分原因子句的位置处于与情绪子句相邻的上下文中,其相对位置小于3的数量占所有情绪原因对的98.15%。 (2)基于ECG-KAG的情绪原因对抽取方法 由于知识图谱可以建立句子和情绪类别之间的因果关系,并对文本进行更好的表示,因此,本文提出了情绪类别引导的情绪原因对抽取(Emotion Category Guided Emotion-Cause Pair Extraction with KAG,ECG-KAG)方法。首先,利用ConceptNet知识图谱获得与子句情感相关的路径知识,并利用长短期记忆模型LSTM对路径进行编码、利用预训练模型BERT对子句进行编码;其次,将该子句的路径知识编码与融合上下文信息的子句编码进行融合;最后,根据相对位置信息,利用GAT抽取情绪原因对,该方法在情绪原因对抽取数据集上实验结果F值达到了0.7584。 (3)基于Sen-BiGAT-Inter的情绪原因对抽取方法 考虑到ECG-KAG抽取方法分类粒度太细,以及ConceptNet知识图谱在具有通用性的同时也会引入大量的噪音,因此,本文提出了情感字典、BERT和图网络结合的情绪原因对抽取(Sen-BiGAT-Inter)方法,该方法利用情感字典丰富情感语义信息,并且将情绪子句识别和原因子句识别作为辅任务。首先,将情感词汇信息引入到子句的表示中,使用BERT编码子句,使句子在编码时包含丰富的情感信息和上文语义信息;其次,建立两个图注意力网络用于学习情绪子句和原因子句表示,以获取候选情绪原因对的表示,应用多头注意力机制,使情绪与原因子句对间进行有效交互,从而学习候选情绪原因对的全局信息;最后,通过sigmoid函数得到真正具有因果关系的情绪原因对。通过与ECG-KAG的实验进行对比,Sen-BiGAT-Inter效果较优,其F值达到了0.7647。说明该方法将情感词汇信息引入到子句的表示中,可以使句子在编码时包含丰富的情感信息和上下文语义信息,对提升模型效果较为明显。 (4)情绪原因对自动抽取实验系统 本系统采用Sen-BiGAT-Inter方法,结合Web技术开发了情绪原因对自动抽取系统,本章从需求分析出发,分析了情绪原因对抽取的意义,并设计和开发情绪原因对抽取、词性标注和情感极性等功能。