摘要
传统人机对话中仅使用文本单一模态存在对话中包含的信息量不够的问题,而使用文本和图片两种模态能丰富对话中的信息量,也更符合实际生活中的聊天场景.由于文本和图片两个模态的不同特点,对话模型只采用单一的传统NLP和CV领域的模型,不能同时很好地处理这两种模态.针对在多模态特征提取与融合模型上的问题,提出一种基于Transformer与FasterRCNN融合的多模态特征提取与融合模型,更好地进行两种模态的特征提取、融合,达到提高多模态对话的性能的目的.模型中,Transformer对文本进行特征提取,FasterRCNN对图片进行特征提取,然后通过Late Fusion融合技术将图片和文本两种模态的特征融合.实验结果表明,相较于传统的单一模型,提出的模型在多模态对话的几种性能评价指标上均取得了比较理想的效果.