摘要
多模态对话情感识别在许多人机交互的场景如智能教育、智能医疗、智能客服等领域都有着广泛的应用,提升计算机的情感识别能力对于促进人机交互的过程有着重要意义。多模态对话情感识别旨在从对话中分析目标话语的情感状态,在对目标进行情感分析的时候不仅需要综合语音、视频、文本多个模态的信息,还需要将对话中的上下文语境纳入情感分析的过程。 在目前的对话情感识别的研究中,许多工作从其它说话人对自身的情绪影响来考虑对话中的情绪动态。在建模他人话语的影响时往往使用基于RNN的方法对不同说话人的话语单独进行特征提取,并与当前话语结合进行情感分析,这种方式无法捕捉到情绪变化的连续过程且过于依赖额外的融合机制对他人信息和自我信息进行融合。还有许多工作只考虑了单个模态的信息,忽视了多模态信息融合对情感识别任务的优势。为解决上述问题,本文结合关系图神经网络和图注意力网络的优势,设计了一种基于关系图注意力网络的多模态对话情感识别方法,来解决他人情绪影响和多模态特征融合问题。本文主要内容如下: (1)针对他人话语的情绪影响问题,使用图神经网络的方式将对话中的每个话语特征用作图中的顶点,他人话语的情绪影响作为顶点之间的边。设计了一个关系图神经网络来为图中不同说话人顶点分配不同关系类型,使用注意力机制计算当前话语顶点与其邻接话语顶点的边权重,计算过程中为不同关系类型分配不同的参数矩阵。在进行图聚合运算时,按照不同的关系类型聚合本类型内的顶点特征,聚合过程中不同关系类型使用的参数矩阵也不相同。通过图的聚合运算,使得模型学到不同说话人的话语信息对当前话语的影响。文章在IEMOCAP和MELD数据集上进行了大量对比实验,三个单模态的实验结果证明了区分不同说话人的方式比不区分说话人的方式模型效果更好,以关系图神经网络来区分不同说话人的方式比使用RNN的方式模型效果提升明显。 (2)针对于多模态融合的问题,使用三层关系图注意力网络分别针对语音、文本、视频三个模态来吸收跨模态信息。在每一层关系图注意力网络中将关系类型划分为本模态关系类型以及其它两种模态关系类型,根据不同的关系类型使用不同的参数矩阵来计算跨模态信息的注意力作为边的权重,根据不同的关系类型,聚合对应关系类型下的顶点特征,聚合过程中针对不同关系类型使用不同的参数矩阵。模型通过三层的图聚合运算使每个模态特征都捕获到其它两个模态特征的信息。文章使用最后一层关系图注意网络的多模态输出在IEMOCAP和MELD数据集上分别进行情感六分类预测和情感七分类预测。预测准确率分别为69.87%和64.56%,均优于单个模态的实验效果,准确率也超过张量融合、Transformer融合、直接拼接等特征层融合方式的实验结果。