基于图像-文本语义一致性的文本生成图像方法

Text-to-Image Generation Method Based on Image-Text Semantic Consistency

薛志杭 ¹许喆铭 ¹郎丛妍 ¹冯松鹤 ¹王涛 ¹李浥东¹

扫码查看

作者信息

1. 北京交通大学计算机与信息技术学院北京 100044
折叠

摘要

近年来,以生成对抗网络(generative adversarial network,GAN)为基础的文本生成图像方法成为跨媒体融合研究的一大热门领域.文本生成图像方法旨在通过提取更具表征力的文本及图像特征,提升文本描述与生成图像之间的语义一致性.现有方法大多针对在图像全局特征与初始文本语义特征之间进行建模,忽略了初始文本特征的局限性,且没有充分利用具有语义一致性的生成图像对文本特征的指导作用,因而降低了文本生成图像中文本信息的表征性.其次,由于没有考虑到生成目标区域间的动态交互,生成网络只能粗略地划分目标区域,且忽略了图像局部区域与文本语义标签的潜在对应关系.为解决上述问题,提出了一种基于图像-文本语义一致性的文本生成图像方法ITSC-GAN.该模型首先设计了一个文本信息增强模块(text information enhancement module,TEM),利用生成图像对文本信息进行增强,从而提高文本特征的表征能力.另外,该模型提出了一个图像区域注意力模块(image regional attention module,IRAM),通过挖掘图像子区域之间的关系,增强图像特征的表征能力.通过联合利用这 2个模块,使得图像局部特征与文本语义标签之间具有更高的一致性.最后,该模型使用生成器与判别器损失函数作为约束,以提升生成图像的质量,促进图像与文本描述的语义一致.实验结果表明,在CUB数据集上,与当前主流方法AttnGAN模型相比,ITSC-GAN模型的IS(inception score)指标增长了约 7.42%,FID(Fréchet inception distance)减少了约28.76%,R-precision增加了约14.95%.大量实验结果充分验证了ITSC-GAN模型的有效性及优越性.

关键词

文本生成图像/生成对抗网络/图像区域注意力/文本信息增强/语义一致性

Key words

text-to-image/generative adversarial network/image region attention/text information enhancement/semantic consistency

引用本文复制引用

基金项目

国家自然科学基金(62072027)

国家自然科学基金(61872032)

国家自然科学基金(62076021)

北京市自然科学基金(4202057)

北京市自然科学基金(4202058)

北京市自然科学基金(4202060)

出版年

2023

计算机研究与发展

中国科学院计算技术研究所中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心

影响因子：2.649

ISSN：1000-1239

参考文献量33

段落导航