摘要
多模态情感分析(Multimodal Sentiment Analysis,MSA)是多模态任务中的一个研究热点。与传统的情感分析不同,多模态情感分析在分析过程中需要综合文本、音频、图像等多个模态的数据。这种方法更加贴近于现实生活中人们情感表达的方式,因为人们在表达情感时不仅仅使用文字,还会辅以声调以及动作等不同层面的信息。 然而,目前针对多模态情感分析任务的研究仍存在一些不足之处。多数研究仅使用多模态标注信息对模型进行训练,使得其单模态模块无法学习到差异化的信息。其次,研究大多集中在多模态特征融合策略的改进上,忽略了对单模态更好的建模,特别是语音和图像模态。本文针对于上述问题围绕细粒度标注的多模态视频情感分析展开了研究,主要研究内容和贡献如下: (1)针对于单模态细粒度标注信息未被充分利用的问题,提出了一种基于多任务学习的多模态情感分析框架,利用细粒度标注信息来提高单模态模块的差异性,从而使模型获得更好的泛化能力。框架将多模态情感分析任务解耦成了多模态情感回归预测主任务和各单模态情感回归预测辅助任务,同时引入了多任务学习中的同方差不确定性加权方法来加权不同任务的损失函数,平衡了任务间的收敛性,减小模型不确定性。 (2)针对于多模态情感分析研究中单模态建模不足的问题,提出了一种基于Trans-former编码器的单模态特征提取和多模态特征融合方法。通过单模态Transformer编码器对来自于各模态的时序信息进行充分的建模获得高级特征,接着利用多模态Trans-former学习各单模态的高级特征之间的交互与融合关系,获得强大的多模态表征,提升了多模态情感分析的效果。 (3)为了更加充分地利用细粒度标签信息,在多模态情感分析任务中首次引入了MixGen方法,并进行了针对性地修改与优化,在此基础上提出了对各个单模态的低级特征和情感极性标注信息进行插值增强的SupMixGen方法,丰富了数据集内容,有效地提高了模型的鲁棒性。 (4)在中文视频情感分析数据集CH-SIMSv2.0上进行了大量实验。与其他先进的多模态情感分析方法进行了对比实验,并且对于框架中所提方法的有效性进行了消融实验验证。实验结果表明,本文提出的方法均能有效提升情感分析效果,改进了模型预测的各项指标,取得业界领先的效果。