计算机应用与软件2024,Vol.41Issue(3) :188-193,219.DOI:10.3969/j.issn.1000-386x.2024.03.029

基于生成对抗网络的文本转图像研究

TEXT-TO-IMAGE BASED ON GENERATIVE ADVERSARIAL NETWORK

李校林 高雨薇 付国庆
计算机应用与软件2024,Vol.41Issue(3) :188-193,219.DOI:10.3969/j.issn.1000-386x.2024.03.029

基于生成对抗网络的文本转图像研究

TEXT-TO-IMAGE BASED ON GENERATIVE ADVERSARIAL NETWORK

李校林 1高雨薇 2付国庆2
扫码查看

作者信息

  • 1. 重庆邮电大学通信与信息工程学院 重庆 400065;重庆邮电大学通信新技术应用研究中心 重庆 400065;重庆信息设计有限公司 重庆 401121
  • 2. 重庆邮电大学通信与信息工程学院 重庆 400065;重庆邮电大学通信新技术应用研究中心 重庆 400065
  • 折叠

摘要

近几年,生成对抗网络(Generative Adversarial Network,GAN)在文本转图像中已经取得了显著成果,但是当生成复杂图像时,一些重要的细粒度信息常常会丢失,包括图像边缘模糊、局部纹理不清晰等问题.为了解决上述问题,在堆叠式生成对抗网络(Stack GAN)基础上,该文提出一种基于深度注意力的堆叠式生成对抗网络模型(Deep Attention Stack GAN,DAS-GAN),模型第一个阶段生成图像的基本轮廓和颜色,第二个阶段部分外观和颜色的补充和校正,最后一个阶段细化图像的纹理细节.通过在CUB数据集上实验的初始得分发现,DAS-GAN相比StackGAN++和AttnGAN分别提高了 0.296和0.078,从而证明了该模型的有效性.

Abstract

In recent years,generative adversarial network(GAN)has achieved remarkable results in text-to-image conversion,but when generating complex images,some important fine-grained information is often lost,including problems such as blurred image edges and unclear local textures.In order to solve the above problems,on the basis of Stack GAN,a deep attention stack GAN(DAS-GAN)is proposed.The first stage of the model generated the basic outline and color of the image,the second stage added and corrected the partial appearance and color,and the last stage refined the texture details of the image.Through the initial scores of experiments on the CUB data set,it is found that DAS-GAN is 0.296 and 0.078 higher than StackGAN++and AttnGAN,which verifies the effectiveness of the model.

关键词

生成对抗网络/深度学习/文本转图像/深度注意力/DAS-GAN

Key words

Generative adversarial network/Deep learning/Text-to-image/Deep Attention/DAS-GAN

引用本文复制引用

基金项目

重庆市教委科学技术研究计划(KJQN202000647)

出版年

2024
计算机应用与软件
上海市计算技术研究所 上海计算机软件技术开发中心

计算机应用与软件

CSTPCD北大核心
影响因子:0.615
ISSN:1000-386X
参考文献量21
段落导航相关论文