基于语义布局融合文本图像生成算法

Semantic Layout Aware Generative Adversarial Network

黄结余 ¹郑炳辉¹

扫码查看

作者信息

1. 上海大学上海电影学院,上海 200072
折叠

摘要

文本到图像生成方法旨在生成与文本描述在语义上一致的高质量图像.先前生成对抗性网络通常首先生成具有粗略形状和颜色的初始图像,然后将初始图像细化为高分辨率图像.大多数堆叠式体系结构仍然存在两个主要问题:①这些方法在很大程度上取决于初始图像的质量.如果初始图像没有很好地初始化,那么最终合成的图像看起来像是来自不同图像尺度的视觉特征的简单组合.②以往工作广泛采用的跨模态文本图像融合方法在文本图像融合过程中受到限制.提出了一种新的文本到图像生成模型,该模型引入了一个无需多生成器即可直接生成高质量图像的单阶段主干,以及一个新的语义布局深度融合网络,以实现文本和视觉特征的充分融合.在具有挑战性的CUB和COCO Stuff数据集上的实验证明了模型在生成图像方面的能力,包括视觉逼真度和与输入文本描述的一致性.

关键词

文本生成图像/生成对抗网络/特征融合

引用本文复制引用

出版年

2024

工业控制计算机

中国计算机学会工业控制计算机专业委员会江苏省计算技术研究所有限责任公司

工业控制计算机

影响因子：0.258

ISSN：1001-182X

参考文献量9

段落导航