摘要
情感分析在用户个性化推荐、医疗健康、舆情监测等领域有着广泛的应用。近年来,随着社交平台和视频平台的兴起,多模态的情感数据呈爆发式增长。相比于单一模态的情感分析,多模态情感分析(MSA)通过整合文本、音频和视觉等多种信息源,能够提供更全面、更准确的情感理解。因此,越来越多的研究者开始使用多模态情感数据进行情感分析的研究,以获得更好的情感表达和更准确的情感分析结果。 随着深度学习的发展,当前的多模态情感分析研究已经取得了显著的进展。目前,尽管已经有许多研究者利用预训练语言模型提升了多模态情感分析的性能,但是他们的方法仍然存在一些问题。首先,当前的工作通常使用模态平衡的设计策略,未充分利用文本模态的特征表达优势。其次,这些工作在模态融合时往往假设不同模态及其融合特征处于同一特征空间,这种假设忽略了特征空间差异中所蕴含的模态交互和样本差异信息,并且会引入噪声,从而导致对多模态信息的挖掘不够充分。 针对上述问题,本文提出了以文本为中心的多模态对比学习情感分析框架(Text-centricMultimodalContrastiveLearningSentimentAnalysisFramework,TCMCL)。为了充分利用文本信息的优势,该框架中的模型设计以文本为中心展开,首先使用预训练语言模型BERT作为文本特征提取器提取文本上下文信息,之后将音频和视频模态视为文本模态的补充,通过特征级的跨模态文本增强,将这两个辅助模态信息融入文本特征。此外,为了克服特征空间一致性假设的局限性,本文设计了基于实例预测和基于情感极性的两种对比学习任务。基于实例预测的对比学习任务致力于隐式融合多模态情感信息,基于情感极性的对比学习任务用于学习不同情感极性样本之间的微妙特征差异,同时能够使模型保持对情感表达的敏感性。通过这两个对比学习任务对增强后文本特征进行调整,最后形成用于情感分析的多模态特征表示。 本文在CMU-MOSI和CMU-MOSEI两个多模态情感数据集上进行了广泛的实验验证。结果表明,TCMCL不论是在回归任务还是分类任务相比其它模型都表现出更好的结果和性能。此外,本文还进行了消融实验和参数敏感性验证,以验证模型各个结构的有效性和各个重要参数对模型性能的影响,并通过可视化方法进一步分析了对比学习任务在模型训练中的功能和效果。