BERT模型在多模态数据分类上的研究与应用

王佳伟¹

扫码查看

作者信息

1. 江苏大学
折叠

摘要

帮助阐释世界的语义信息通常来自不同的模态，而信息时代可以更方便地访问文本、图像等多模态数据。因此，让人工智能处理多模态信息，建立能够处理和联系多种模态信息的模型，是人工智能领域一个潜力非凡的研究。近年来，利用深度学习的方法对多模态数据进行分析处理已逐渐成为一种趋势。但鉴于数据的异质性，研究者需要探讨如何构建共同的潜在空间来捕获模态间的语义相关性。因此，本文结合多模态数据的挑战及多模态数据集自身特点，利用深度学习来对多模态数据进行分类研究。 1.针对有明确目标词导向的多模态数据进行分类时，使用单次注意力方法在关注多个分散的目标单词时会隐藏每个参与词特性，同时数据间长期依赖关系的问题会导致分类不准确。为了解决这一系列难题，提出了一种基于BERT的循环注意力网络。该网络开发了一种软的、连续的注意力机制，通过逐步优化目标敏感的文本特征和视觉特征的对齐和依赖关系，能有效地捕捉模内和模间动态。同时，提出了一种深度监督方法用来克服了由于循环次数过多而导致的反向传播收敛速度较慢和容易过拟合的问题。在多个基于目标词的多模态情感分类数据集上的实验结果证明，基于BERT的循环注意力网络针对有明确目标词导向的多模态数据进行分类时拥有更好的准确率。 2.针对目标导向宽泛且模态数据繁杂的多模态数据进行分类时，单一细粒度或粗粒度注意力方法捕获具有宽泛特点的目标与其他模态的交互可能会导致信息丢失，同时引入繁杂的多模态数据丰富了特征但可能带来冗余和噪声。针对以上问题，提出了一种基于BERT的多粒度关注融合网络。该网络通过细粒度的注意力机制捕获目标和其他模态信息的模间交互，减轻粗粒度注意力机制中的信息损失。再结合粗粒度注意力对全局信息的提取，从而可以利用两者的优势。同时，提出了一种多模态融合机制，克服了冗余信息和噪声抑制分类精度的问题，强化对最终分类有益的特征。实验结果证明所提出的方法能提高针对目标导向宽泛且模态数据繁杂的多模态数据的分类效果。 3.设计并开发了多模态数据分类系统，将本文所提出的网络模型运用于系统中，实现了针对不同特点的多模态数据集来选择相应模型进行训练，进而实现分类的功能。为人工智能能解释和推理多模态数据，完成多模态数据分类任务打下了坚实的基础。

关键词

多模态数据集/数据分类/BERT模型/深度学习

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

刘哲

学位年度

2022

学位授予单位

江苏大学

语种

中文

中图分类号

段落导航