摘要
随着社交媒体的发展,短视频成了当前信息传播最重要的渠道.而在全球自然灾害稳步增长的趋势下,社交媒体可以帮助管理者了解公众在灾难中的反应和情绪.利用多模态情感计算,可以分析大众在短视频平台上的文本、图片、音频等信息,快速识别大众情感状态,有助政府对舆情的监测.现有对暴雨情感计算的研究大多集中在文本这一单模态,未考虑自然灾害中的视觉、听觉数据,导致情感分析识别率低,鲁棒性差;且现有模态融合算法中常忽略不同特征间的相关性;对于情感分析的内容,也缺乏对灾害事件再次引发内容的分析.针对以上问题,本文围绕面向自然灾害的短视频多模态情感计算展开研究,从数据集构建、算法实现与系统设计进行探索,从而为研究自然灾害场景下的多模态情感分析提供数据支撑和算法基础。主要研究工作概括如下: (1)特定场景下的短视频多模态数据集构建 针对社交短视频多模态数据集缺失的问题,本文选择2021年郑州暴雨这一自然灾害作为应用场景。通过获取抖音短视频及用户行为信息,经过数据清洗与预处理,以及针对短视频本身内容引发情感、一次和二次引发情感设计三种情感标注方案,对齐三模态数据,并计算相应的克朗巴哈系数验证所构建数据集的有效性,构建了一个包含284条音视频的研究中国自然灾害事件中群体情绪的短视频数据集。 (2)短视频多模态情感计算方法和系统实现 本文提出一种端到端多模态情感计算方法,同时处理文本、图像和语音等多模态数据。使用预训练的CNN和Transformer处理输入数据,并用FFN作为前馈网络,再对每个模态的分类得分进行加权求和,从而得到情感预测分值。实验结果表明,在自构建数据集上情感识别六分类效果准确率达62.93%,相比单模态和使用IEMOCAP数据集的实验结果提升了19.74%和20.00%.此外,为直观展现短视频本身情感和引发群体情绪强烈程度,集成数据预处理和模型推理,构建了一个端到端情感分析系统。