摘要
情感分析用于对目标对象所蕴含的观点进行推理,狭义上目标对象仅包括文本信息。随着多媒体社交平台的流行,越来越多的用户发布视频来表达主观意见,以单人独白或多人对话的形式分享他们对于事物的看法,广义上情感分析的目标对象包括从视频中分离出的文本、音频和视觉等多模态信息。利用视频情感分析技术挖掘出这些多模态数据中的情感倾向和情绪状态,有助于产品和服务的改进,网络舆情的监控和情感对话机器人等人-机交互系统的研发。视频情感分析的核心难点在于从多模态特征中推理出与说话者情感判别最相关的特征。具体来说,视频情感分析模型一方面要能够有效融合多模态的异构特征、剔除冗余特征,一方面要能够丰富视频片段的情感语义。因此,本文针对视频中说话者关键情感特征提取的问题展开研究,旨在提升视频情感分析模型的性能。具体的工作体现在如下两个方面: (1)针对单人独白视频关键情感特征提取任务中的特征冗余和特征干扰的问题,本文提出跨模态层级交互融合网络。通过聚合跨模态的注意力特征和双线性特征来提升视频情感分析的效果。该网络由低层的双模态特征交互模块和高层的三模态特征层次融合模块构成。低层模块引入成对注意力机制,捕捉两两模态之间的语义关系。高层模块捕捉三模态特征之间的交互,并通过自注意力机制和门控机制融合消除噪声特征,增强情感特征的判别能力。在CMU-MOSI和CMU-MOSEI数据集上进行多模态情感极性分类,结果表明本文所提模型在话语级别的独白视频关键情感特征提取任务上取得了优异的性能。此外,在ICT-MMMO数据集上评估模型,证明该网络在文档级别的视频情感分析任务上也能取得一定效果,模型具有可扩展性。 (2)针对多人对话视频关键情感特征提取任务中的说话者情感交互依赖建模难的问题,本文提出听说知识融合网络。通过融合与倾听者和说话者相关的外部常识知识特征来丰富视频的情感语义,从而更好的捕捉说话者之间的情感交互。该网络包括四个阶段,在多模态上下文感知的基础上,设计了知识融合模块和跨信息平均池化获得知识增强后的话语特征,最后门控输出模块消除冗余信息,提取出能够最大程度表征情绪信息的数据特征。在IEMOCAP和MELD数据集上进行多模态对话情绪识别实验,结果表明本文所提模型在多人对话视频关键情感特征提取任务上具有良好的表现。此外,在DailyDialog和EmoryNLP数据集上评估模型,结果证明该网络在文本对话情绪识别任务上也具有良好表现,模型具有可扩展性。