摘要
深度学习在计算机视觉、自然语言处理等领域受到了广泛关注,并取得了优异成绩。多模态文本生成是通过深度学习将文本、图像、视频、音频等转化为文本的问题。目前,多模态文本生成问题已经在编码器-解码器的模型结构基础上研究取得了很好的进展。然而,模型将多模态信息进行转化的过程缺乏对于文本知识的获取是有限的。当前,已有一些基于知识增强的文本生成模型的研究。引入外部知识库或知识图谱后,文本生成效果得到了提升,取得了比原本的模型更高的数值效果。但在多模态文本生成问题当中,知识增强的方法相对较少,模型文本生成效果还有很大提升空间。 针对上述问题,本文主要研究多模态的文本生成问题,并提出了两个基于知识增强的多模态文本生成模型。 首先提出了基于外部知识的多模态文本生成模型。外部知识融入到模型当中的方式为,在知识库中检索示例、并将有效的文本信息作为先验知识编码,通过自注意力机制处理后加入到解码器当中。在公开数据集的实验当中,在基准模型的基础上,BLEU-4提升了0.022,METOER提升了0.1,ROUGE-L提升了0.022。 然后提出了基于知识图谱的多模态文本生成模型。知识图谱辅助文本生成的方式包含两种,一种是知识图谱嵌入与文本编码相融合,一种是利用知识图谱的推理作用。实验结果表明了模型的有效性,BLEU-1提升了0.015。