多模态情感分析与智能音乐生成方法研究

刘一贺¹

扫码查看

作者信息

1. 河北科技大学
折叠

摘要

多模态情感智能研究是人工智能领域中的重要一环，通过对文字、音频、视频等多模态数据的整合分析，完成服务于用户的各类下游任务。早期的情感智能研究主要为文本情感分析和文本摘要生成，然而文本单模态所容纳信息有限，文本特征因自身歧义问题难以精准监督模型。在这种情况下，模型难以感知当下真实情感信息并对说话人的情感进行精准预测，更难以进行相关内容的生成与推荐。随着多媒体的快速发展，社会信息逐渐由文字信息转向多元化的声音、视频等多模态信息。这些多模态信息存储了更丰富的情感信息，形成了多模态情感智能跨领域的层次化研究体系。该项研究已出现大量落地应用，诸如情感检测机器人、情感相关内容推荐和情感音乐心理医疗等。多模态情感智能需要模型具备浅层信息认知能力和深层信息理解能力。本项工作聚焦于自然语言处理任务的多模态情感分析（Multimodal Sentiment Analysis,MSA）研究和基于多模态情感分析的智能音乐内容生成（Intelligence Music Context Generation,IMCG）落地应用。然而，现有的多模态情感智能研究仍然局限于文本单模态信息，难以发挥音视频模态的作用，存在严重的文本主导现象。具体来说，多模态情感智能领域存在着数据资源匮乏、多模态贡献不平衡以及内容生成形式单一等三个重要问题。为了解决这些问题，将进行以下具体研究：（1）针对数据资源匮乏问题，构建了一个最大的半监督中文多模态（文本、声学和视觉模态）的细粒度情感分析数据集CH-SIMS v2.0，旨在研究中文非言语行为的有效性。此外，我们进行了单模态和多模态可行性分析实验，针对数据集中的单模态和多模态标签设计模型。实验表明，该数据集的细粒度标签能够提高主流模型的情感预测能力。本研究是探索声音和视觉上情感线索的第一步。该数据集和相关算法已开源，供研究人员使用。（2）针对多模态贡献不平衡问题，提出了声学视觉混合一致性(Acoustic Visual Mixup Consistent,AV-MC)框架。其内部的模态混合模块是一种增强策略，它混合了来自不同视频的声学和视觉模态信息，通过构建潜在的多模态语境，再与数据集中已有的文本信息组合。模型能够学习并感知不同非语言语境对于情感预测的变化。实验表明AV-MC框架有助于模型进一步挖掘声学与视觉中的情感线索，并为现实世界场景的可解释端到端人机交互应用铺平道路。（3）为了解决音乐内容生成单一的问题，聚焦于情感智能应用并构建了一个多模态情感智能分析与音乐内容生成平台。由于独立的音乐内容生成工作难以生成情感风格明显的乐曲，因此本文结合声学信息中的情感要素与音乐调性，基于Transformer网络设计了一个旋律和弦时序分离的预处理方法(Melody Chord Separation on Time,MCST)，让模型生成具有丰富情感风格的音乐内容。此外，在对生成的音乐片段进行二次处理时，提出了一种Chord2Vec和弦替换方法，以突出音乐的情感多样性。该工作在开源数据集Piano-Classic上取得了具有竞争力的性能表现。

关键词

智能音乐生成/多模态情感分析/声学视觉混合一致性

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

高凯/郑广/丁保忠

学位年度

2023

学位授予单位

河北科技大学

语种

中文

中图分类号

段落导航