基于生成对抗网络的语义图像生成研究

徐嘉伟¹

扫码查看

作者信息

1. 大连大学
折叠

摘要

图像生成是指使用计算机生成图像的过程，其核心是使用算法和模型来从输入数据中生成新的图像。这个领域关联到多个子领域，如机器学习、计算机视觉、深度学习等。在机器学习和深度学习领域，图像生成可以通过生成对抗网络(Generative Adversarial Network,GAN)和变分自编码器(Variational Autoencoder,VAE)等模型实现。这些模型可以从输入数据中学习数据的统计规律，并在没有输入的情况下生成新的图像。这些技术在计算机视觉、图像处理、医学影像处理等领域中得到了广泛的应用。除此之外，图像生成技术还具备极高的商业价值和广泛的应用前景。它已经被应用在多个领域，如视频游戏、虚拟现实、自动驾驶、艺术创作、医学影像处理、影视制作等。这些应用领域都需要高质量、真实感和细节丰富的图像。因图像生成技术具备研究价值和挑战性，故成为了一个受到广泛关注的研究方向。本文旨在研究高性能图像生成方法，以提高生成图像的质量并保持条件信息与输出图像一致。主要采用生成对抗网络技术，并对图像生成质量进行理论分析和实验验证等相关工作。总的来说，本文的具体工作如下: (1)本文针对语义图像生成任务，提出了一种全新的端到端网络——位置感知生成对抗网络(Location Aware Generative Adversarial Network,LA-GAN)。本方法在生成对抗网络的基础上进行改进，其核心是位置感知条件组规范化层(Location Aware Contional Group Normalization,LACGN),它由条件组归一化(Condition Group Normalization,CGN)、位置感知预测模块(Location Aware Prediction Module,LAPM)和采样指导模块(Sampling Guide Module,SGM)组成。它根据当前生成的图像特征预测位置感知信息，并使用从语义分割掩码学习到的调制参数作为条件信息实现条件组归一化。通过图像生成过程，LA-GAN增强了与语义分割掩码的融合。并结合组归一化，模型可以在训练时减少对批次大小的依赖。实验结果显示，不论在定量还是定性实验中，LA-GAN都表现出较好的性能，能够生成高质量的图像。 (2)本文提出了多尺度注意力融合生成对抗网络(Multi-scale Attention Fusion Generative Adversarial Network,MAF-GAN),用于语义图像生成任务。具体来说，融合了两种注意力模块用于改进特征表示，一个是多尺度通道注意模块(Multi-scale Channel Attention Module,MCAM),一个是自注意模块(Self-Attention Module,SAM)。多尺度通道注意力通过通道注意力图选择性地强调每个通道的尺度特征，该图将所有通道图中的相关特征集成在一起，而不考虑其比例。自注意力机制使用空间注意力图有选择地关联每个位置的像素，这使具有相同语义标签的像素相互关联，无论它们在空间上的距离如何。通过将它们的输出相加，可以进一步改进特征表示。实验结果表明MAF-GAN能够生成较高质量的图像，且产生的伪影较少。

关键词

语义图像生成/生成对抗网络/规范化层/注意力融合

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

周东生；刘瑞

学位年度

2023

学位授予单位

大连大学

语种

中文

中图分类号

段落导航