计算机研究与发展2023,Vol.60Issue(9) :2180-2190.DOI:10.7544/issn1000-1239.202220416

基于图像-文本语义一致性的文本生成图像方法

Text-to-Image Generation Method Based on Image-Text Semantic Consistency

薛志杭 许喆铭 郎丛妍 冯松鹤 王涛 李浥东
计算机研究与发展2023,Vol.60Issue(9) :2180-2190.DOI:10.7544/issn1000-1239.202220416

基于图像-文本语义一致性的文本生成图像方法

Text-to-Image Generation Method Based on Image-Text Semantic Consistency

薛志杭 1许喆铭 1郎丛妍 1冯松鹤 1王涛 1李浥东1
扫码查看

作者信息

  • 1. 北京交通大学计算机与信息技术学院 北京 100044
  • 折叠

摘要

近年来,以生成对抗网络(generative adversarial network,GAN)为基础的文本生成图像方法成为跨媒体融合研究的一大热门领域.文本生成图像方法旨在通过提取更具表征力的文本及图像特征,提升文本描述与生成图像之间的语义一致性.现有方法大多针对在图像全局特征与初始文本语义特征之间进行建模,忽略了初始文本特征的局限性,且没有充分利用具有语义一致性的生成图像对文本特征的指导作用,因而降低了文本生成图像中文本信息的表征性.其次,由于没有考虑到生成目标区域间的动态交互,生成网络只能粗略地划分目标区域,且忽略了图像局部区域与文本语义标签的潜在对应关系.为解决上述问题,提出了一种基于图像-文本语义一致性的文本生成图像方法ITSC-GAN.该模型首先设计了一个文本信息增强模块(text information enhancement module,TEM),利用生成图像对文本信息进行增强,从而提高文本特征的表征能力.另外,该模型提出了一个图像区域注意力模块(image regional attention module,IRAM),通过挖掘图像子区域之间的关系,增强图像特征的表征能力.通过联合利用这 2个模块,使得图像局部特征与文本语义标签之间具有更高的一致性.最后,该模型使用生成器与判别器损失函数作为约束,以提升生成图像的质量,促进图像与文本描述的语义一致.实验结果表明,在CUB数据集上,与当前主流方法AttnGAN模型相比,ITSC-GAN模型的IS(inception score)指标增长了约 7.42%,FID(Fréchet inception distance)减少了约28.76%,R-precision增加了约14.95%.大量实验结果充分验证了ITSC-GAN模型的有效性及优越性.

关键词

文本生成图像/生成对抗网络/图像区域注意力/文本信息增强/语义一致性

Key words

text-to-image/generative adversarial network/image region attention/text information enhancement/semantic consistency

引用本文复制引用

基金项目

国家自然科学基金(62072027)

国家自然科学基金(61872032)

国家自然科学基金(62076021)

北京市自然科学基金(4202057)

北京市自然科学基金(4202058)

北京市自然科学基金(4202060)

出版年

2023
计算机研究与发展
中国科学院计算技术研究所 中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心
影响因子:2.649
ISSN:1000-1239
参考文献量33
段落导航相关论文