基于深度学习的多模态命名实体识别模型研究

宋艳然¹

扫码查看

作者信息

1. 哈尔滨工程大学
折叠

摘要

知识图谱是知识工程的重要分支之一，它以符号形式结构化地描述了物理世界中的概念及其相互关系。命名实体识别是从文本中获取面向实体的知识，并在知识图谱之间融合知识。近年来，随着人工智能的发展和大数据时代的到来，产生了海量的多模态数据，对这些数据的处理和挖掘能够帮助人们更好地理解文本内容，掌握有价值的信息。多模态命名实体识别可以结合多种模态数据的信息，实现更加准确的实体识别任务，为知识图谱的构建提供更为丰富的实体类型。随着深度学习的迅速发展，基于神经网络的多模态命名实体识别模型提出借助图像对社交媒体文本中的命名实体进行识别成为近年来的研究热点。虽然这些模型有一定的改进，但仍存在两个主要的问题:（1）对多模态中单个模态语义特征挖掘不够有效，部分信息会被忽略，导致不能充分利用不同模态语义的信息进行融合，进而影响实体的识别。（2）当图像中被检测到的视觉对象和文本实体数量或类型上不一致时，由视觉对象引起的偏差可能会误导对实体的识别。针对模态语义特征挖掘不够有效导致多模态交互不充分的问题，本文提出了基于图文语义增强的多模态交互命名实体识别模型（MIITSE）。使用社交媒体语料库构建表征词典，对文本特征提取进行知识增强;采用卷积神经网络与视觉Transformer相结合的混合架构，在进行图像特征提取时综合考虑整体与局部信息;采用了带有跨模态注意力机制的多模态交互模块，能够从图像和文本中抽取实体相关的特征，更好地融合多模态信息;最后，通过基于注意力的多模态表示对文本实体进行类型标注。针对在图像中视觉对象和文本中实体数量或类型不完全相同的情况下，实体识别会受到视觉对象误导的问题。本文提出了基于去偏置对比学习的多模态融合命名实体识别模型（MFDCL）。使用了带有跨模态门控机制的多模态融合模块，捕获多模态语义单元之间的各种语义关系;在对比学习中，采用难分样本挖掘策略和去偏置对比损失来缓解图文数量和实体类型不一致带来的偏差;最后，学习到的语义空间与解码器GlobalPointer相结合实现对文本中实体的识别。最后，在社交媒体领域的数据集Twitter-2015和Twitter-2017上与基线模型进行对比，证明了MIITSE和MFDCL模型的可行性。这表明提高图文特征提取质量和缓解视觉对象引起的偏差对于命名实体识别任务的准确性有着积极的影响。

关键词

多模态命名实体识别/卷积神经网络/深度学习/特征增强/注意力机制

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

李丽洁；张玉广

学位年度

2023

学位授予单位

哈尔滨工程大学

语种

中文

中图分类号

段落导航