摘要
中国朝鲜语古籍的数字化对保护中国朝鲜语的历史语言资源、研究朝鲜族历史、文化传承和古籍资料的再生利用,具有重要研究价值和现实意义。古籍资源的传统手工录入或简单数字化采集保存方式,效率低下,不利于记录、交流和传播,因此采用先进的数字化技术实现古籍文字的自动识别,进而实现全文数据库需求变得越来越迫切。古籍文字识别是古籍全文数字化过程中最重要的基础工作之一,由于少数民族文字的复杂性,且受样本数据量的限制,使得少数民族古籍文字识别技术仍然面临着不少的困难。经过调研发现国内在中国朝鲜语古籍数字化研究领域非常落后,鲜见相关的研究文献和成果。为了推进朝鲜语古籍数字化进程,本文研究并提出了一种小样本的朝鲜语古籍文字的识别方法。 首先,本文针对朝鲜语古籍文字识别的小样本学习问题,采用了两类数据增强方法扩充数据样本。一是传统数据增强方法,生成的图像可以在保持原始图像特征的同时获得一些其它特征;二是基于条件深度卷积生成对抗网络的数据增强方法,生成的新文字图像样本具有多样性优点,同时避免了模式坍塌问题的出现。采用以上方法扩充的数据集能够满足后续识别任务。 其次,采用经典的卷积神经网络对本文扩充后的富数据集N1进行了预训练并得到预训练模型。预训练过程中实验对比了VGGNet16、ResNet18和ResNet50等三种卷积神经网络,三者识别性能指标接近,能够准确有效地提取朝鲜文字的结构特征,取得富数据测试集较高的分类精度。 最后,采用同源迁移学习的策略提出了小样本朝鲜语古籍文字识别方法。为了证明采用同源迁移学习策略的有效性,本文采用同源预训练模型和ImageNet预训练模型,同样在三种网络模型上进行了对比实验。实验结果表明本文提出的同源预训练模型在小样本数据集N2获取的识别性能明显优于后者,进一步反映了本文的同源预训练模型在提取朝鲜文字结构方面比ImageNet模型更优秀。 本文研究的数据增强方法有效,扩充的样本显著地丰富了实验数据。在富数据集N1的预训练任务中,ResNet18模型在测试集上达到了99.77%的分类精度。在采用同源迁移学习策略后,深度卷积网络可以在更小规模的数据集N2上解决小样本的朝鲜古籍文字图像识别问题。最终使用ResNet50模型在全类数据集上得到99.72%的分类精度。证明了本文提出的迁移学习方法能够解决小样本且不平衡的朝鲜语古籍文字识别问题。