基于深度学习的甲骨文变体研究

冯子恒¹

扫码查看

作者信息

1. 中国人民大学
折叠

摘要

甲骨文是中国汉字的源头和5000多年优秀传统文化的根基，也是中国最早的可考的成熟文字系统。由于远古时代的生产条件落后，没有文字书写标准，书写方式具有较高程度的随意性，缺乏规范性，甲骨文的图像特征十分明显，同一文字的结构和字形并不统一，大量不同形状的同一文字并存。即使是古文字爱好者，也需要在专业参考书和专家的帮助下完成对甲骨文的基本认识。在传统文献研究领域，甲骨文的识别依赖于大量的专家知识，如文学、历史、图论等，效率低下，而且相关的甲骨文字库环境封闭而有限，公开的数据十分稀少，并没有专门针对甲骨文变体研究的数据集。我们以几千年前的甲骨文为研究对象，构建了拓本甲骨文变体数据集和计算机甲骨文数据集，提出了三阶段的基于深度学习的甲骨文变体识别模型，降低甲骨文识别难度，促进了甲骨文识别的“大众化”，对计算机在甲骨文领域的应用进行了初步探索，主要贡献如下: （1）构建了两个可直接用于计算机模型训练和识别的甲骨文图像数据集。数据集1为拓本甲骨文数据集，收集自真实的原版甲骨文拓片的影印资料，保留了甲骨文的原始特征，包括字体轮廓信息，包含1113类甲骨文变体，4634张图像;数据集2为计算机甲骨文数据集，是计算机模仿书写的甲骨文文字，字体标准，粗细一致，包含381类甲骨文字符，771张图像，其中包含变体字符187类，577张图像。（2）借用构建的两个甲骨文数据集，对基于深度学习的甲骨文变体识别技术展开研究，融合计算机和传统文献领域的识别方法，提出了三阶段的甲骨文变体识别方法。首先，由于甲骨文“年代久远，数据稀少”需要数据增强，根据甲骨文的特点，如对称性、正反共存性等，采用相应的数据增强方法，获得足够的训练样本。在第二阶段，采用了基于迁移学习的VGG16网络，识别甲骨文变体，并设置不同阈值，获取不同阈值下的模型识别结果，得到每种阈值下的各类数据集top-k识别准确率及召回率，分析不同阈值变化对测试集的识别准确率和召回率的影响。第三阶段，利用上一阶段各阈值条件下的甲骨文变体识别结果，过滤一部分甲骨文变体，选择低于特定阈值条件的甲骨文变体作为待识别数据集，引入先验知识来识别甲骨文变体。在第二阶段的基础上，选择不能确认的甲骨文变体字符，进行先验知识匹配，整合多领域方法来识别待测甲骨文变体。同时还进行了多组对比实验以验证模型的鲁棒性和泛化能力，分析了不同数据增强方式下的模型top-k平均准确率和召回率的变化。本文提出的方法在甲骨文变体字的识别方面取得了很好的效果。本文提出的模型可以有效提高甲骨文变体字的识别效率，减少专家人工识别的工作量，还可以降低甲骨文识别门槛，向大众开放，使得甲骨文的识别更普及，走进普通人生活，让人民群众发现中国古老汉字的魅力,走进古文字，了解中国历史文化，夯实民族自信。此外，本研究为计算机前沿技术介入古文字符识别提供一条新思路，尝试计算机科学和考古学的交叉研究。

关键词

甲骨文变体/迁移学习/甲骨文变体数据集

引用本文复制引用

授予学位

硕士

学科专业

管理科学与工程

导师

梁循

学位年度

2023

学位授予单位

中国人民大学

语种

中文

中图分类号

段落导航