基于深度学习的模态信息情绪识别与分析

张敬伟¹

扫码查看

作者信息

1. 天津师范大学
折叠

摘要

人类的情感反应是他们对待实际情况的观点。在现实世界中，个体的情感获取可以通过多种方式进行。近年来，基于深度学习的情感分析技术的发展，将多种感知方式融合起来用于情感状态的预测，成为一种发展趋势。每个模态都同时包含独特的信息和一些交叉信息。例如，语言模态包括基本的语言符号、语法和动作。声学特性涵盖语音和语调等方面。视觉特性则包括身体动作、眼神和面部表情等各种信息。不同的模态信息在数据形式上存在显著差异，并且在处理方式上也采用不同的方法，因此，在一个统一的模型中增加额外的模态信息可能会提高建模效果，但同时也会增加建模的复杂性和难度。旨在获得优秀效果，需对源自多种模式的特征数据进行高效整合，以达到各特征相辅相成，本文做出了以下两点主要工作： (1)本研究通过采用Transformer技术进行模态特征的抽取，并对其自注意力机制进行了独到的创新，提出了一种新的跨模块的融合机制，实现了不同模态数据信息的交融。引入深度模块化联合注意力层（Deep Modular Union Attention Layer，简称 MUA）。该联合注意力层利用自注意力和引导注意力，对两种模态的信息进行融合，实现模态之间信息在空间上的交互融合，达到提取互补信息的目的。本文使用 IEMOCAP和 CMU-MOSEI数据集来验证所提出的模型网络的有效性，同时与主流模型在相同的实验环境下做出对比实验，实验结果显示本文所提出的模型在 IEMOCAP数据集上取得了 0.6740分数的精确率、召回率与F1分数，同时在情绪类别Neu.类别上得到了0.8000的高分，在表现稍差的Hap.情绪类别上依旧得到0.6850不错的分数。在CMU-MOSEI数据集上，本文提出的模型表现得更为优异，在二分类任务上，Acc2与 F1 分数取得 0.8220 高分；在六情绪分类任务上，针对恐惧(Fear)情绪类别获得 0.9140 高分，惊讶(Surprise)类别获得0.9140高分，较主流模型M-logue分别提高5.9%、12.8%。 (2)本文创新性的设计出跨模块融合机制与门控模态网络（Gated Modal Network, GMN）融合网络,GMN 独特的地方在于首先将语言、视觉和声学模态分别作为主要模态单独计算，对于每一个主模态都会有其余两个伴随模态输入至此网络中，此外，该网络通过采用与伴随模态相关的核心数据设定主模态的偏差矢量，以此调整主模态展示的情绪信息，令其更趋近于整体多模态内容的情绪色彩。继而整合另外两种辅助模态的偏差矢量，最后呈现出模态的特征向量，该网络旨在实现模态间重要性的动态平衡，仿效人类处理多模态信息并评估总体情绪状态的判断机制。本文使用 CMU-MOSEI 数据集来验证所提出的模型网络的有效性，同时与主流模型在相同的实验环境下做出对比实验，实验结果显示本论文提出的模型在六情绪任务分类上惊讶(Surprise)表现最为优异取得0.9040高分，较主流模型 M-logue提高 11.6%；恐惧(Fear)情绪类别上同样取得0.8910高分；在Acc2、F1分数上分别取得了0.8551、0.8558的高分，较主流模型Mult分别提高4.4%、5.7%。

关键词

情绪识别/模态特征提取/Transformer模型/注意力机制/跨模块融合机制/门控模态网络

引用本文复制引用

授予学位

硕士

学科专业

信息与通信工程

导师

李彦

学位年度

2024

学位授予单位

天津师范大学

语种

中文

中图分类号

段落导航