基于多模态融合策略的情感分析方法研究

易国峰¹

扫码查看

作者信息

1. 安徽大学
折叠

摘要

自人工智能之初诞生起，人们就怀揣着创造出能够匹敌乃至超越人类智力的智能机器的梦想。因此，探索如何让机器具备像人类一样识别和表达情感的能力，成为了一个广受关注的研究领域。在这样的背景下，多模态情感分析（MSA）应运而生，作为情感计算领域中的一个新兴分支，它致力于从融合多种类型数据的角度解析和理解情感元素，进而实现更为准确的情感预测。本文聚焦于基于多模态融合策略进行的情感分析研究，目的是克服以往研究中存在的一些问题，如单一阶段融合的不足、对文本模态的过度依赖，以及融合架构不够灵活等问题。具体的研究内容包括: 第一，提出了一个用于多模态情感分析的两阶段堆叠Transformers（TSST）框架。该框架把融合过程分解成两个阶段，每个阶段都专注于多模态信号的一个子集，旨在同时捕捉模态间的交流信息和融合表示中的交互信息。核心技术采用了堆叠的Transformers,维持了双阶段结构，用以模拟多模态语言的跨模态和模态内交互。针对跨模态交互，还引入了一种注意力权重累积机制，旨在进一步增强模型的处理能力。第二，提出了一种创新的方法，它将视觉-语言预训练模型中的视觉编码器和融合架构的设计理念应用于多模态情感分析。具体而言，为了克服视觉和文本模态之间的不平衡，提出了一个帧间混合Transformer,它扩展了最近的CLIP和Timesformer架构。该模块从稀疏采样的视频帧中提取时空特征，不仅关注面部表情，还捕获身体运动信息，相较于传统方法仅依赖预提取的面部信息，我们的方法能够提供一个更加全面的视觉表征。此外，通过引入一种新方案来解决融合架构中的模态异质性挑战，该方案在融合视频和文本信息之前提示并对齐它们。具体来说，根据视频内容信息生成判别性文本提示，以增强文本表示，并使用视频-文本对比损失来对齐单模态视频-文本特征。提出的端到端可训练模型仅使用两种模态便在三个广泛使用的数据集上展示了最先进的性能。

关键词

多模态情感分析/多模态融合/Transformers框架/预训练模型

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

陶建华；范存航

学位年度

2024

学位授予单位

安徽大学

语种

中文

中图分类号

段落导航