摘要
近年来,生成对抗网络(GenerativeAdversarialNetworks,GAN)在多种视觉任务(如图像去雾,图像生成,超分辨率等)获得了硕大的成果。然而,每一个成功的GAN不仅需要大量的数据进行模型训练,而且依赖于卷积神经网络(ConvolutionalNeuralNetwork,CNN)架构,这将致使GAN面临以下挑战:1)GAN的鉴别器在数据样本有限的情况下,无法准确学习到图像样本的特征信息,容易造成生成图像保真度低和模型训练不稳定等问题;2)由于CNN的卷积核中含有局部感受野,无法处理图像特征之间的长期依赖关系,容易产生模型优化困难和图像特征缺失等问题。目前,Transformer在自然语言处理领域利用自注意力机制建立文本语义之间的关系取得了显著性的成就。受此启发,将Transformer引用到视觉领域来避免CNN的局限性成为一项研究热点。然而Transformer的计算复杂度是图像分辨率的二次方。当图像分辨率过大时,容易造成模型内存爆炸的问题。 针对上述问题,本文在正则化损失函数和模型架构方面做出了一些改进,其主要内容包括: (1)针对训练数据有限时,GAN生成的图像保真度低和模型不稳定等问题。本文基于深度卷积生成对抗网络(DeepConvolutionalGenerativeAdversarialNetworks,DCGAN)提出了一种改进模型,称为LC-DCGAN。详细来说,本文在模型中引入两个指数移动平均变量用于减少小批量之间的方差,使其鉴别器的预测逐渐收敛到平稳点。从而提高模型在有限数据集下生成图像的质量以及稳定模型的学习动态。在实验中采用将生成样本与原始样本1∶1混合的操作,然后按照一定比例输入到基于局部感受野的极限学习机分类算法,根据模型的分类准确率来判定生成图像的质量。实验结果表明,LC-DCGAN在有限的数据下可以生成保真度高、类型丰富的数据样本。 (2)为了解决图像特征缺失,内存爆炸以及生成图像保真度低等问题,本文提出一种基于移位窗口Transformer架构的GAN模型,称为Swin-GAN。该模型使用Transformer模型替代GAN模型中的CNN,利用移动窗口注意力机制构建了一个内存友好的生成器,通过上采样机制逐步提高每个阶段的特征图的分辨率。此外还构建了一个多尺度鉴别器,使用移动窗口注意力机制捕获局部窗口之间的语义信息和局部细节特征。为了进一步提高生成图像的保真度和模型的稳定性,该模型采用数据增强、高效的批次计算和相对位置编码等技术来提升模型的性能。与现有方案相比,Swin-GAN具有更好的性能表现和更低的计算成本。具体而言,Swin-GAN模型的Params值为30.254M,浮点每秒运算量(FLOPs)值为4.086G。CIFAR-10中的起始分数(IS)为9.04,Fréchet起始距离(FID)为9.23。