摘要
古汉字是中华文化的宝藏,它见证了中华文明的演变和进步。在其漫长的发展过程中,不仅古汉字的字形不断演化,其载体也在不断变化。古汉字的字符类别丰富,场景分布广泛,这使得古汉字识别任务面临较大的难度,并且相关研究较为缺乏。随着深度学习和计算机视觉领域不断发展,应用相关技术来解决古汉字识别任务已经成为可能。本文利用这些技术开展古汉字识别相关研究,主要工作如下: 构建了一个可供实验的古汉字草书数据集。目前公开的古汉字数据集较少,并且现有的古汉字数据集并不完全符合古汉字数据的特点。本文选择字形丰富的草书,首先收集一部分古汉字数据为基础数据。为了解决古汉字数据不足的问题,采用多种数据增强方法进行数据扩充。最后基于真实场景下古汉字存在的特点,本文使用人工合成方法和生成对抗网络方法,将收集到的古汉字图像与古汉字背景图像融合,构建真实场景下的古汉字数据集。 提出了基于多阶段注意力机制的网络来进行古汉字识别任务。古汉字具有多种文字样本相似度高、单种文字内样本差异大等特点。同时,在真实场景中的古汉字识别还面临着杂乱且复杂背景干扰。为了解决这些难点,本文以ResNet为主干网络并添加注意力机制。结合注意力机制思想,提出了多阶段注意力机制来进行古汉字识别任务,通过通道、空间以及混合注意力,来重点关注古汉字图像中的不同信息。本文提出的多阶段注意力网络通过在网络中的不同阶段叠加多种注意力模块,每个注意力模块都有自己的掩码分支,使网络的不同阶段能够关注不同的特征信息,从而获得更好的识别准确率。在本文构建的古汉字草书数据集上以及公开数据集上进行对比实验和消融实验,实验结果表明本文提出的多阶段注意力网络相较于其他卷积神经网络,识别准确率有所提高。也验证了本文提出网络以及注意力模块的可行性和有效性。 为了验证本文提出的网络可应用在实际中,本文设计并实现了一个古汉字识别系统。系统结合本文提出的多阶段注意力网络、图像预处理等多种技术。可以将用户上传的古汉字图像保存,为后续网络的训练提供数据支撑。