摘要
社交媒体中存在着大量的用户情感信息,企业决策者们不仅希望了解用户情感,还希望了解相应的原因,以帮助他们从用户层面思考和优化产品。在这样的需求下,情感原因检测成为自然语言处理中具有重要价值和应用前景的任务之一,并逐渐发展为情感原因对提取任务(ECPE)。传统的二阶段ECPE模型存在着模型错误传递无法修正的问题,尽管后来的端到端模型解决了这一问题,但仍存在着文档事件特征利用不充分、混淆因子夹杂的问题。为此,本文从事件特征挖掘和因果去混淆的角度对情感原因对进行研究,主要研究内容如下: (1)提出一种情感从句类别特征编码方法。由于当前情感从句提取过程缺乏有效的情感标签信息,导致模型未能充分利用情感特征来进行原因的提取。因此,本文在ECPE中加入情感分析任务,将情感从句的特征和预测矩阵结合,利用注意力机制得到蕴含文档事件信息的情感类别特征。 (2)提出一种基于卷积神经网络(CNN)的因果事件语境提取器。当前情感原因在配对时没有充分利用背景从句的事件信息,就像阅读理解不提供文本段落一样,模型得到的特征较片面。为此,本文基于CNN,将背景从句的事件特征融入配对过程。首先,将情感类别特征作为CNN的卷积核,称为情感卷积核(EK)。然后,将文档的所有从句作为CNN输入。这样EK在卷积运算时,将会依次扫描一篇文档的所有从句,从而让模型学到更丰富的事件特征和因果关系。 (3)通过时序卷积网络(TCN)研究长距离情感因果的映射。为了提高长距离情感原因对的配对质量,在第(2)点的基础上利用TCN中空洞卷积扩大文本感受野的特点,连接并挖掘跨从句事件的特征,从而构建长距离的因果映射。 (4)基于前门准则理论,提出一种改进的注意力框架,以实现情感因果去混淆。情感原因文档中的混淆因子使情感原因与背景从句之间产生了虚假的因果关联。因此,本文基于前门准则不需要获取混淆因子的特性,对注意力机制进行改进,提出自文档注意力和跨文档注意力,使原本无监督的注意力分配过程得到有效的因果指引,从而去除混淆因子的影响。实验结果表明,运用前门准则去除情感原因文档中的混淆因子,可以有效地提高ECPE的F1分数。