唐诗的图像生成

毕文韬¹

扫码查看

作者信息

1. 东南大学
折叠

摘要

唐诗的图像生成是以跨模态、自动地将唐诗语言风格的文本转换成对应的图像的任务，隶属于文本生成图像领域的研究工作。此类任务不仅需要计算机理解文本的语义信息，还要将语义信息转化为像素，极具挑战性。此外，唐诗在遣词造句上讲究平仄、对仗和韵律，具有丰富的意象，蕴含深层次的情感表达，其朦胧开放的解读方式也进一步增加了读者对语义内涵的理解难度。因此，利用插图这一艺术形式挖掘唐诗语言文字的内涵，可以降低阅读门槛，对于提升国民精神素养、增进文化认同和自信具有重要的现实意义，是维护国家长治久安的精神堡垒。现有关于英文场景下的文本图像生成技术已日趋成熟，但是对于中文相关的研究，尤其是针对我国古典诗词的文本图像生成的研究鲜有成果，尚有众多挑战有待研究与解决。另一方面，唐诗通常蕴含丰富的意向词语，生成的图像包含多个实体对象，而目前面向多实体的文本图像生成方法通常需要提供额外的场景布局信息，难以满足端到端的全自动实现的需求。针对现有研究的不足，本文面向唐诗文学作品，设计了唐诗文本语义提取方法并构建其蕴含场景图，以场景图为桥梁提出了唐诗图像生成模型。论文的具体工作如下：（1）面向唐诗文本的特征提取。本研究针对唐诗语法特点设计专用规则，通过词性分析和句法分析工具解析诗句结构，构建唐诗语义树，充分提取了唐诗蕴含的实体对象及交互关系，并分析预测了唐诗的情感偏向。（2）唐诗场景图的自动构建。针对多对象图像生成依赖人为提供场景布局信息的问题，本研究提出了唐诗场景图自动构建方法，通过融入情感的词共现图模型和关系预测模型，扩充从唐诗文本提取的意向词集合并预测关系，自动构建了唐诗场景图作为图像生成的依据。（3）基于生成式对抗网络的多阶段唐诗图像生成。基于本研究自动构建的唐诗场景图，通过图卷积网络融合实体关系，获取各实体的特征向量表示，并通过边界框预测网络和掩膜回归网络预测各实体的边界框位置和分割掩膜信息，构建唐诗图像的场景布局。在场景布局信息的指导下，利用多阶段细化的图像生成模型完成唐诗图像的生成。实验结果表明，本研究提出的唐诗图像生成模型能够根据唐诗文本端到端地生成图像，具有较强的实用性，且生成的图像在保证质量的同时，较好地还原了唐诗内容。

关键词

图像生成/生成式对抗网络/语义提取/唐诗文本/语法特点

引用本文复制引用

授予学位

硕士

学科专业

网络空间安全

导师

曹玖新

学位年度

2022

学位授予单位

东南大学

语种

中文

中图分类号

段落导航