摘要
在过去的几年里,计算机视觉应用和图像处理技术极大地受益于深度学习的突破所带来的进步。伴随着硬件水平的不断提升,图像生成方向发展迅猛,人们开始着眼于如何构建一个能够理解视觉和语言之间关系并可以创建反映文本描述含义的图像的系统。最近几年,从文本生成图像方法的研究已有了很大的进展,但在图像生成质量、文本与生成图像语义一致方面还存在很多的挑战。本文基于生成对抗网络,对从文本生成图像的方法开展了研究,本文的主要工作如下: (1)对近几年文本生成图像方法的网络结构以及实现方法进行研究。针对现有方法中生成图像质量不高,以及生成图像与给定文本语义不符的现象,在AttnGAN的基础上进行了改进。通过使用一种单词级的空间和通道注意驱动生成器,通过利用注意力机制允许生成器合成与最相关单词对应的子区域,并通过多阶段架构模型逐步提高生成图像的质量。通过引入图像描述的方法对生成图像的内容再次进行阐述,并生成描述性文本,通过比较原给定的文本语义与重新生成的文本的语义是否相符,来督促生成器生成与给定的文本语义相同的图像。 (2)为解决现有方法在生成图像时对初始图像过度依赖的问题,对文本生成图像方法做了进一步的改进,引入了一种基于键-值的动态记忆网络。首先,使用生成对抗网络生成初始图像,然后通过基于动态记忆模型改进的生成网络逐步细化初始图像。并使用记忆写入门和响应门,根据初始生成图像有针对性地选取相关单词,解决注意力机制中文本单词在不同图像权重一致的问题,更有针对性地细化图像。 通过在公开数据集Birds-200-2011、MicrosoftCOCO上进行的实验验证,证明本文的方法在生成图像的质量和语义一致性方面的性能有不同程度的提升。