基于Transformer与FasterRCNN的多模态特征提取与融合

陈远露 ¹王亮¹

扫码查看

作者信息

1. 沈阳化工大学计算机科学与技术学院辽宁沈阳 110142;辽宁省化工过程工业智能化技术重点实验室辽宁沈阳 110142
折叠

摘要

传统人机对话中仅使用文本单一模态存在对话中包含的信息量不够的问题,而使用文本和图片两种模态能丰富对话中的信息量,也更符合实际生活中的聊天场景.由于文本和图片两个模态的不同特点,对话模型只采用单一的传统NLP和CV领域的模型,不能同时很好地处理这两种模态.针对在多模态特征提取与融合模型上的问题,提出一种基于Transformer与FasterRCNN融合的多模态特征提取与融合模型,更好地进行两种模态的特征提取、融合,达到提高多模态对话的性能的目的.模型中,Transformer对文本进行特征提取,FasterRCNN对图片进行特征提取,然后通过Late Fusion融合技术将图片和文本两种模态的特征融合.实验结果表明,相较于传统的单一模型,提出的模型在多模态对话的几种性能评价指标上均取得了比较理想的效果.

关键词

多模态/对话系统/特征提取/特征融合/模型融合/Transformer/FasterRCNN

引用本文复制引用

出版年

2024

信息技术与信息化

山东电子学会

信息技术与信息化

影响因子：0.29

ISSN：1672-9528

段落导航