摘要
在现实生活中,人们每天都会看到大量的图片,同时能够快速的理解图像中的信息。然而对于机器来说,图片是用像素点堆叠形成的,让机器理解图片所表达的内容、感受图片之间的差异甚至理解图片所表达的情感是一件非常具有挑战性的任务。因此,如何让机器自动生成输入图像所对应的描述信息(即图像描述)成为了计算机视觉领域中的热门课题之一。 近年来,图像描述生成的相关研究层出不穷,其中较为流行的是基于编码器-解码器的深度学习模型。研究者通过在卷积神经网络和长短期记忆网络的组合框架中引入注意力机制实现了对图像中部分特征区域的重点关注,但缺少并行能力。随后Transformer架构被用于图像描述生成研究,直接采用注意力机制来完成描述语句的生成,实现了并行计算,极大提升了图像描述生成效率。但图像描述生成需要实现从图像到文本的跨越,其语义鸿沟问题使得生成的描述局限于某些出现频率较高的单词。使用单一视觉特征代表图像信息的方式在挖掘图像中对象关联信息的能力上存在不足,并且传统注意力机制仅关注局部细粒度信息,对于图像的全局信息缺少关注。对于以上问题,本文展开了如下的研究工作: (1)针对单一视觉特征无法全面表达图像信息的问题,本文提出了一种基于三级关系增强的Transformer模型用于实现描述生成,结合多种视觉特征实现图像到文本两种模态的跨越。通过构建一个三线并行的编码器来实现不同模态的视觉特征之间的信息交互和优势互补,借助多个注意力模块丰富视觉特征中包含的对象关系信息,提高模型对于对象关系的描述能力。 (2)针对生成描述中关联信息不足且缺乏全局信息的问题,本文从增强模型特征处理能力的角度设计了一个基于二元注意Transformer的图像描述生成模型。通过构建一个双线并行的编码器来完成对于区域特征和网格特征的信息交互以及特征处理,借助二元注意模块获取图像的局部细粒度信息以及全局信息,通过嵌套注意模块寻求特征中相关信息之间的共识,提升注意力模块之间特征处理的相关性,促进特征聚合和信息传播。 (3)为了验证本文所提出两个方法的有效性以及其在提升生成描述质量上的能力,在数据集MSCOCO上设计了多种对比实验。三级关系增强Transformer的实验结果说明,通过融合多种视觉特征的方法能够有效提升模型在生成的图像描述中描述图像中对象关系的能力,在提升模型性能的同时能够挖掘深层的图像对象关系信息,丰富生成描述中的对象关系信息。另外,二元注意Transformer方法的实验结果也表明,该方法所生成的图像描述能够较好的关注到图像的整体信息、细节信息和图像中对象之间所存在的关联信息,在保证其生成描述的准确率和质量的同时增强了模型关于图像整体、细节以及关联信息的挖掘和描述能力。