基于深度学习的场景文本编辑方法研究

张国栋¹

扫码查看

作者信息

1. 厦门大学
折叠

摘要

随着科技的飞速发展，场景文本编辑技术在图像隐私保护、文本图像合成、广告和海报设计等方面具有重要意义。然而，编辑图像中的文本仍具有挑战性，如文本尺寸和形状的多样性、图像中文本的不均匀分布以及复杂背景噪声等问题。本文基于深度学习，研究场景文本编辑方法，具体内容包括以下三个方面: (1)针对现有文本分割方法在处理多尺度不规则场景文本时的分割效果不佳等问题，提出了一种基于门控机制和多尺度特征融合的场景文本分割方法。通过引入门控完全融合模块，实现自适应调整不同层次特征的权重，并有选择地聚合信息,从而更好地捕捉多尺度文本信息。同时，利用多尺度特征融合模块进一步强化对不同尺度文本信息的捕捉。在此基础上，结合增强模块和文本先验模块分别关注文本边缘特征和学习文本先验信息，以进一步提升对多尺度文本目标的精确识别和分割能力，为场景文本编辑奠定坚实基础。 (2)针对现有文本擦除方法在处理复杂场景文本时难以准确区分文本区域和非文本区域，导致过度擦除等问题，提出了一种基于文本分割的两阶段场景文本擦除方法。该方法首先利用文本分割方法精确地划分文本区域，为后续擦除步骤提供依据;接着，利用聚合上下文转换模块和自注意力模块更好地捕捉全局上下文信息;同时，利用SM-PatchGAN判别器优化生成图像的质量和真实感，以实现更精确的文本擦除和生成清晰的结构化纹理。 (3)针对现有技术在实现场景文本大小编辑时面临诸多局限性，提出了一种多阶段的场景文本大小编辑应用方法。该方法首先利用文本分割方法提取出文本像素实例;其次，利用场景文本擦除方法清除原有文本;然后，采用双线性插值方法对文本大小进行调整;最后，通过图像融合技术将调整后的文本与背景图像进行融合，以实现高效且精确的文本大小编辑解决方案。本文使用多个公开数据集验证了提出的场景文本分割方法和场景文本擦除方法的可行性和有效性。实验结果显示，这些方法在各项指标上表现出色，相较于现有技术，在场景文本分割和擦除的准确性和效果上具有显著优势。同时，通过结合场景文本分割和擦除，实现了场景文本大小编辑的应用，为场景文本编辑技术的发展提供了有力支持和前瞻性解决方案。

关键词

场景文本编辑/文本分割/文本擦除/生成对抗网络

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

林文水

学位年度

2023

学位授予单位

厦门大学

语种

中文

中图分类号

段落导航