基于特征对齐与融合的文本生成图像研究

杨雨嫣¹

扫码查看

作者信息

1. 中国科学技术大学
折叠

摘要

近年来，文本生成图像已成为计算机视觉领域的重要研究方向之一，它旨在理解文本的语义信息并生成相关的图像，不仅能够帮助扩充虚假图像检测的数据集，还能配合文本为网络舆情分析提供支撑。传统的文本生成图像方法希望能够建模实现文本特征到图像特征的直接映射，但是因为二者跨度较大效果不好，直到生成对抗网络(GAN)被应用于这个领域，文本生成图像的效果得到了显著提升，但是仍存在很多问题。例如，经典方法采用多个生成器-判别器对的堆叠式结构不仅会造成模型冗余，还会使得生成图像仿佛是目标物体的叠加，缺乏视觉真实性，而单阶段模型对文本特征的使用不够充分。并且无论哪种方法都缺少了对不匹配真实图像信息的利用，也未对图像和文本信息进行局部匹配对齐，这会导致生成图像与文本的语义一致性不够好。针对这些问题，本文对单阶段的文本生成图像模型提出了改进，主要分为以下两个研究点: (1)提出了基于特征融合的文本生成图像模型(MF-GAN)。该方法采用一对生成器-判别器的骨干架构，通过在生成器中使用条件残差模块和双元注意力模块来实现对粗粒度和细粒度文本信息的充分利用。具体而言，句子和单词的特征被分别重复输入上述两个模块中，用于文本特征和图像特征的深度融合。此外，本文还引入了三元组损失来缩小生成图像与匹配真实图像之间的视觉差距，并同时扩大与不匹配真实图像的差距，以充分利用不匹配真实图像信息。实验结果证明MF-GAN优于大多数最先进方法。 (2)提出了基于特征对齐的文本生成图像模型(MFA-GAN)。该方法在MF-GAN的基础上进行改进，通过跨模态注意力机制实现文本和图像的局部语义对齐。具体而言，跨模态注意力机制包括文本到图像和图像到文本两个方向，分别计算两个方向的局部匹配相似性之后，基于三元素损失的思想进行组合得到最终语义对齐损失，从而进一步提高文本和图像之间的语义一致性。实验证实MFA-GAN在MF-GAN的基础上效果有所提升。

关键词

文本生成图像/生成对抗网络/三元组损失/语义对齐/跨模态注意力

引用本文复制引用

授予学位

硕士

学科专业

网络空间安全

导师

廖勇

学位年度

2022

学位授予单位

中国科学技术大学

语种

中文

中图分类号

段落导航