摘要
情感计算是一种可以测量、分析人类情感的计算技术。针对人类的外在表现,通过使用计算机获取人类的脸部表情、语音等信息来识别情感状态,从而帮助机器更好地理解人类的情感和行为,实现更流畅和高效的交互体验。然而,由于人类情感的表现形式复杂多样,如果单一地考虑某一种表现形式来判定情感,识别结果会偏向片面且不客观,从而导致有价值的情感信息丧失。因此结合多模态信息进行情感识别可以利用不同模态的信息,相互补充和增强,从而提高情感识别的准确性。本文从单模态数据增强与多模态数据融合两方面,对图文多模态情感识别任务展开研究,论文的主要工作如下: (1)本文提出一种名为BorderMix的图像数据增强方法。CutMix在随机选择图像裁减区域时可能损坏图像的中心信息,针对该问题提出了BorderMix,BorderMix通过将图像处理的区域限制在边缘来尽可能保留图像中心信息。在两个公开的图像情感分类数据集上的实验证明了BorderMix相比原始数据的平均正确率提升了1.61%,平均macro-F1分别提升了2.16%。 (2)本文提出一种名为虚拟词插入(VWI)的文本数据增强方法。虚拟词插入包括平均虚拟词插入和加权虚拟词插入。平均虚拟词插入是指在句中插入一个虚拟词,该虚拟词的词向量等于原始句中所有词的平均词向量。之后还提出了类差别因子的概念,该概念和卡方检验结合形成了一种新权重,利用新权重得到加权虚拟词插入方法。在三个公开的文本情感识别数据集上的实验证明了VWI相比原始数据的平均正确率提升0.63%,平均macro-F1提升0.85%。 (3)为了更好的挖掘图像和文本之间的相关性,融合图文信息,本文提出了基于跨模态注意力特征融合(CMAFF)的图文多模态情感识别模型,该模型包括特征提取层,跨模态编码层,多模态编码层。然后在两个公开的图文多模态情感识别数据集上证明了CMAFF模型的平均正确率提升0.315%,平均Weighted-F1提升0.51%。最后还进行实验证明了结合数据增强与CMAFF模型两种策略能进一步将总体平均正确率提升0.62%,总体平均Weighted-F1提升0.735%。 (4)上述研究工作分别从数据层面和算法层面提出了单模态数据增强和多模态数据融合优化策略,并进行实验验证了其有效性。基于上述工作设计并实现了一个图文多模态情感识别系统。首先从需求角度分析了图文多模态情感识别系统的功能要求,然后详细介绍数据处理与训练、数据传输、情感识别三个模块功能的流程与实现,最后对系统首页以及查询实例进行展示。