摘要
随着数字通信、社交媒体和在线平台的蓬勃发展,如抖音、快手和 YouTube等视频平台为用户提供了丰富多样的表达情感和观点的途径,大量带有个人情感倾向的视频内容被广泛发布。情感分析作为人机交互的关键技术,在医疗、线上教育、智能客服、社交机器人等多个领域发挥作用,对于提升人机交互环境具有重要意义。通过分析模态数据,该技术能有效识别人们的情感表达。相较于传统的单模态情感识别,多模态情感识别能够更全面和准确地理解人们的情绪状态。然而,这项技术面临着多项挑战,包括异质模态间的语义差异、数据对齐以及模态间关系的有效利用问题。具体而言,论文的主要研究工作包括: (1)针对不同模态间语义差异和数据对齐问题,设计了一个基于对比学习和Transformer的多模态情感识别模型。首先,引入了一个集成融合模块以融合不同模态的特征,增强语义信息,同时降低Transformer中成对序列处理的复杂度。通过跨模态注意力机制,实现了模态间的互补学习,以提升模型的性能。此外,采用对比学习进一步增强了模型的特征表征能力。在 CMU-MOSEI数据集对齐和非对齐数据上的实验结果显示,论文提出的方法优于现有技术。 (2)针对现有模型未能有效利用模态间关系,导致其泛化能力有限的问题。提出了一种基于特征解耦的多模态情感识别模型。该模型首先将多模态数据解耦为共有和特有两部分,引入解耦损失以更好的捕捉多模态特征的多样性和统一性。对于共有特征,模型采用对比学习策略进行优化;对于特有特征,则运用跨模态知识蒸馏方法。此外,为了减轻模态异质性带来的分布式差距,引入跨模态Transformer 并提出层次化编码器。将解耦的多模态特征耦合,进一步增强了模型的表达能力。最后,论文在 CMU-MOSEI 和 CMU-MOSI 数据集上进行了实验,结果表明该模型更加出色。 (3)论文在多模态情感识别模型的基础上,遵循软件工程设计流程,实现了一个完整的Web端情感识别系统。该系统从实际应用角度验证了多模态情感识别模型的有效性。