摘要
意见挖掘是对评论文本的主观情感、意见目标以及意见词等信息的提取过程,是自然语言处理中的核心领域之一。该任务经过了从传统机器学习方法到神经网络方法,从人工构建特征到词嵌入向量的逐渐转变,主要包括粗粒度和细粒度两种级别。其中基于细粒度情感分析的意见挖掘任务是针对特定目标进行精准化意见抽取,具体划分为细粒度情感分类任务、细粒度意见词抽取任务和细粒度意见目标抽取任务。近几年,随着评论文本的复杂化以及用户观点的多维化,需要对粗粒度进一步细化。然而粒度的细化会导致模型捕捉关键位置信息的难度急剧增加,此外还会受到无关词对情感信息编码的干扰,因此如何对复杂评论文本进行精细化意见抽取成为了此类任务的一大难点,另外很多研究将关注点集中在细粒度情感类别预测上,忽略了意见词对情感属性的解释作用,导致意见挖掘任务不完整。针对以上问题,本文以基于特定目标如何进行精准化意见挖掘为出发点,提出细粒度情感分类与细粒度意见词抽取两种方法。本文主要贡献如下: (1)设计了一种融合句法信息的图卷积神经网络SYN_GCN模型。首先通过分析评论文本词汇与词汇之间的语法关系构建依存句法图。接着设计多层图卷积网络并且将依存图融合进去,其中图卷积操作可以使模型学习到节点本身的特征以及节点之间的关联性,而依存图则可以将有语法联系的任意两个节点用边连接起来作为信息传递的桥梁,从而使得意见词中包含的情感信息聚合到相应的目标实体中。最后引入局部上下文特征遮盖层对无用特征进行遮盖,使模型只关注于目标实体及其邻近位置上的局部特征,实现关键位置编码。实验结果表明,本文提出的SYN_GCN模型相比于其它模型效果进一步得到了提升。 (2)设计了一种联合目标监督信号的意见词抽取JTS_CNNs模型。首先通过自编码器获取评论文本的表征信息,将该信息当作共享特征。接着设计指导学习机制,通过自编码器对共享特征进行编码得到意见词抽取和目标实体抽取两种模块的私有特征,然后计算意见目标抽取任务对意见词抽取任务的监督信号,利用该监督信号指导意见词抽取模块的特征学习。最后,为了使模型训练效率大幅度提升,本文采用了简单的卷积神经网络作为共享特征以及两个模块的特征提取层,也叫做编码层。实验结果表明,本文提出的JTS_CNNs模型相比于其它模型效果进一步得到了提升。