基于表情、语音和文本的多模态情感分析

奚晨¹

扫码查看

作者信息

1. 南京邮电大学
折叠

摘要

近些年，随着多媒体社交平台的快速发展，相较于早期以文本数据进行情感分析的研究，融合视频、音频、文本数据的情感分析越来越受到研究人员的关注。多模态情感分析通过引入多个模态的信息，一是克服单模态情感分析存在的误差高，鲁棒性低等缺点，二是能够利用不同模态之间的互补特性提高情感特征的表征能力，从而提升情感分析的能力。人类往往通过多种方式来表达自身的情感，其中，表情、语音和文本是人们平时最常接触的情感表达方式，在多媒体社交平台以多模态数据发展的背景下，本论文研究基于表情、语音和文本的多模态情感分析，对情感特征提取以及多模态特征有效融合展开多模态情感分析的研究，本论文的主要研究内容为：（1）针对以往单模态情感特征表征能力不足的问题，本文采用改进的特征提取方法，对于表情模态主要采用预训练模型以及人脸关键点特征获取表情情感特征；对于语音模态主要采用语谱图以及卷积神经网络来获取语音情感特征，从时间域和频域两个维度来表征语音模态；对于文本模态主要采用预训练的词向量以及句子向量模型来获取文本情感特征，预训练的词向量和句子向量模型通过大规模的数据训练，能够很好的表征文本情感特征。（2）针对直接级联融合情感特征存在的向量维度高、忽略模态间相关性和差异性的问题，提出使用注意力机制来获取多模态重要性语义信息用于情感分析，通过注意力机制学习每个单模态特征对自身影响的重要程度以及不同模态相互之间的重要性程度，获得包含重要性语义信息的多模态情感特征用于情感分析，使用了注意力机制的多模态情感分类准确率达到82.71%，相较于直接级联融合进行情感分析准确率提升了约1%，情感分析能力得到了提升。（3）针对目前大多数研究忽略多模态上下文信息的问题，提出使用图卷积神经网络来获取多模态的上下文信息，通过构建多模态数据的上下文图结构，使用图卷积神经网络将上下文信息映射到多模态情感特征中，获得多模态上下文情感特征用于情感分析，多模态情感分类准确率达到83.28%，结果表明，图卷积神经网络引入的上下文信息使得多模态情感特征更加丰富，情感分析模型鲁棒性更强，能够进一步提升情感分析的能力。

关键词

多模态情感分析/注意力机制/图卷积神经网络/情感特征

引用本文复制引用

授予学位

硕士

学科专业

信号与信息处理

导师

卢官明

学位年度

2021

学位授予单位

南京邮电大学

语种

中文

中图分类号

段落导航