首页|基于深度学习的模态信息情绪识别与分析

基于深度学习的模态信息情绪识别与分析

张敬伟

基于深度学习的模态信息情绪识别与分析

张敬伟1
扫码查看

作者信息

  • 1. 天津师范大学
  • 折叠

摘要

人类的情感反应是他们对待实际情况的观点。在现实世界中,个体的情感获取可以通过多种方式进行。近年来,基于深度学习的情感分析技术的发展,将多种感知方式融合起来用于情感状态的预测,成为一种发展趋势。 每个模态都同时包含独特的信息和一些交叉信息。例如,语言模态包括基本的语言符号、语法和动作。声学特性涵盖语音和语调等方面。视觉特性则包括身体动作、眼神和面部表情等各种信息。不同的模态信息在数据形式上存在显著差异,并且在处理方式上也采用不同的方法,因此,在一个统一的模型中增加额外的模态信息可能会提高建模效果,但同时也会增加建模的复杂性和难度。旨在获得优秀效果,需对源自多种模式的特征数据进行高效整合,以达到各特征相辅相成,本文做出了以下两点主要工作: (1)本研究通过采用Transformer技术进行模态特征的抽取,并对其自注意力机制进行了独到的创新,提出了一种新的跨模块的融合机制,实现了不同模态数据信息的交融。引入深度模块化联合注意力层(Deep Modular Union Attention Layer,简称 MUA)。该联合注意力层利用自注意力和引导注意力,对两种模态的信息进行融合,实现模态之间信息在空间上的交互融合,达到提取互补信息的目的。本文使用 IEMOCAP和 CMU-MOSEI数据集来验证所提出的模型网络的有效性,同时与主流模型在相同的实验环境下做出对比实验,实验结果显示本文所提出的模型在 IEMOCAP数据集上取得了 0.6740分数的精确率、召回率与F1分数,同时在情绪类别Neu.类别上得到了0.8000的高分,在表现稍差的Hap.情绪类别上依旧得到0.6850不错的分数。在CMU-MOSEI数据集上,本文提出的模型表现得更为优异,在二分类任务上,Acc2与 F1 分数取得 0.8220 高分;在六情绪分类任务上,针对恐惧(Fear)情绪类别获得 0.9140 高分,惊讶(Surprise)类别获得0.9140高分,较主流模型M-logue分别提高5.9%、12.8%。 (2)本文创新性的设计出跨模块融合机制与门控模态网络(Gated Modal Network, GMN)融合网络,GMN 独特的地方在于首先将语言、视觉和声学模态分别作为主要模态单独计算,对于每一个主模态都会有其余两个伴随模态输入至此网络中,此外,该网络通过采用与伴随模态相关的核心数据设定主模态的偏差矢量,以此调整主模态展示的情绪信息,令其更趋近于整体多模态内容的情绪色彩。继而整合另外两种辅助模态的偏差矢量,最后呈现出模态的特征向量,该网络旨在实现模态间重要性的动态平衡,仿效人类处理多模态信息并评估总体情绪状态的判断机制。本文使用 CMU-MOSEI 数据集来验证所提出的模型网络的有效性,同时与主流模型在相同的实验环境下做出对比实验,实验结果显示本论文提出的模型在六情绪任务分类上惊讶(Surprise)表现最为优异取得0.9040高分,较主流模型 M-logue提高 11.6%;恐惧(Fear)情绪类别上同样取得0.8910高分;在Acc2、F1分数上分别取得了0.8551、0.8558的高分,较主流模型Mult分别提高4.4%、5.7%。

关键词

情绪识别/模态特征提取/Transformer模型/注意力机制/跨模块融合机制/门控模态网络

引用本文复制引用

授予学位

硕士

学科专业

信息与通信工程

导师

李彦

学位年度

2024

学位授予单位

天津师范大学

语种

中文

中图分类号

TP
段落导航相关论文