摘要
图像翻译的主要目标是找出输入域到输出域图片之间的映射,按照其所使用数据集类型的差异(是否使用配对的图像对),基于生成对抗网络(GenerativeAdversarialNetwork,GAN)的图像翻译方法可以分为基于监督学习的方法和基于非监督学习的方法。非监督学习的图像翻译方法所使用的非配对数据集在现实场景中比较容易获取,因此具有很大的应用前景。目前,虽然基于GAN的图像翻译算法能够在缺少配对数据的条件下实现图像翻译,但是GAN在训练过程中依然存在生成效果不理想的情况,以及传统的GAN在图像翻译领域中会导致输入输出之间没有较好的联系,因此本文提出了单向和双向结构的两种GAN模型,将注意力机制和对比学习的思想引入其中,在Horse→Zebra、Cat→Dog数据集中进一步提升了模型的图像翻译性能,主要工作如下: (1)提出了基于注意力机制的无监督图像翻译模型,在单向的GAN中引入了注意力机制来对通道以及空间维度的有效信息进行提取,让模型能够聚焦于图片中需要注意的地方。同时根据CUT中对比学习的思想,在GAN中使用了PatchNCE损失函数来建立输入输出图片之间的联系,进一步提升模型的图像翻译能力。 (2)提出了一种具有鲁棒性的双向结构GAN图像翻译算法,将对比学习的思想引入到双向GAN中来进行非配对图像对之间的有效映射,并利用更加有效的注意力机制来对输入特征的水平和垂直方向进行特征提取,获取到在图像翻译任务中更加有效的空间信息,从而使模型在不同的图像翻译任务中更具鲁棒性。