基于多模态融合的视频情感识别研究与应用

陈灿荣¹

扫码查看

作者信息

1. 广西科技大学
折叠

摘要

随着数字通信、社交媒体和在线平台的蓬勃发展，如抖音、快手和 YouTube等视频平台为用户提供了丰富多样的表达情感和观点的途径，大量带有个人情感倾向的视频内容被广泛发布。情感分析作为人机交互的关键技术，在医疗、线上教育、智能客服、社交机器人等多个领域发挥作用，对于提升人机交互环境具有重要意义。通过分析模态数据，该技术能有效识别人们的情感表达。相较于传统的单模态情感识别，多模态情感识别能够更全面和准确地理解人们的情绪状态。然而，这项技术面临着多项挑战，包括异质模态间的语义差异、数据对齐以及模态间关系的有效利用问题。具体而言，论文的主要研究工作包括：（1）针对不同模态间语义差异和数据对齐问题，设计了一个基于对比学习和Transformer的多模态情感识别模型。首先，引入了一个集成融合模块以融合不同模态的特征，增强语义信息，同时降低Transformer中成对序列处理的复杂度。通过跨模态注意力机制，实现了模态间的互补学习，以提升模型的性能。此外，采用对比学习进一步增强了模型的特征表征能力。在 CMU-MOSEI数据集对齐和非对齐数据上的实验结果显示，论文提出的方法优于现有技术。（2）针对现有模型未能有效利用模态间关系，导致其泛化能力有限的问题。提出了一种基于特征解耦的多模态情感识别模型。该模型首先将多模态数据解耦为共有和特有两部分，引入解耦损失以更好的捕捉多模态特征的多样性和统一性。对于共有特征，模型采用对比学习策略进行优化；对于特有特征，则运用跨模态知识蒸馏方法。此外，为了减轻模态异质性带来的分布式差距，引入跨模态Transformer 并提出层次化编码器。将解耦的多模态特征耦合，进一步增强了模型的表达能力。最后，论文在 CMU-MOSEI 和 CMU-MOSI 数据集上进行了实验，结果表明该模型更加出色。（3）论文在多模态情感识别模型的基础上，遵循软件工程设计流程，实现了一个完整的Web端情感识别系统。该系统从实际应用角度验证了多模态情感识别模型的有效性。

关键词

多模态情感识别/对比学习/知识蒸馏/特征融合

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

杨智勇

学位年度

2024

学位授予单位

重庆师范大学

语种

中文

中图分类号

段落导航