摘要
甲骨文是中国汉字的源头和5000多年优秀传统文化的根基,也是中国最早的可考的成熟文字系统。由于远古时代的生产条件落后,没有文字书写标准,书写方式具有较高程度的随意性,缺乏规范性,甲骨文的图像特征十分明显,同一文字的结构和字形并不统一,大量不同形状的同一文字并存。即使是古文字爱好者,也需要在专业参考书和专家的帮助下完成对甲骨文的基本认识。在传统文献研究领域,甲骨文的识别依赖于大量的专家知识,如文学、历史、图论等,效率低下,而且相关的甲骨文字库环境封闭而有限,公开的数据十分稀少,并没有专门针对甲骨文变体研究的数据集。我们以几千年前的甲骨文为研究对象,构建了拓本甲骨文变体数据集和计算机甲骨文数据集,提出了三阶段的基于深度学习的甲骨文变体识别模型,降低甲骨文识别难度,促进了甲骨文识别的“大众化”,对计算机在甲骨文领域的应用进行了初步探索,主要贡献如下: (1)构建了两个可直接用于计算机模型训练和识别的甲骨文图像数据集。数据集1为拓本甲骨文数据集,收集自真实的原版甲骨文拓片的影印资料,保留了甲骨文的原始特征,包括字体轮廓信息,包含1113类甲骨文变体,4634张图像;数据集2为计算机甲骨文数据集,是计算机模仿书写的甲骨文文字,字体标准,粗细一致,包含381类甲骨文字符,771张图像,其中包含变体字符187类,577张图像。 (2)借用构建的两个甲骨文数据集,对基于深度学习的甲骨文变体识别技术展开研究,融合计算机和传统文献领域的识别方法,提出了三阶段的甲骨文变体识别方法。首先,由于甲骨文“年代久远,数据稀少”需要数据增强,根据甲骨文的特点,如对称性、正反共存性等,采用相应的数据增强方法,获得足够的训练样本。在第二阶段,采用了基于迁移学习的VGG16网络,识别甲骨文变体,并设置不同阈值,获取不同阈值下的模型识别结果,得到每种阈值下的各类数据集top-k识别准确率及召回率,分析不同阈值变化对测试集的识别准确率和召回率的影响。第三阶段,利用上一阶段各阈值条件下的甲骨文变体识别结果,过滤一部分甲骨文变体,选择低于特定阈值条件的甲骨文变体作为待识别数据集,引入先验知识来识别甲骨文变体。在第二阶段的基础上,选择不能确认的甲骨文变体字符,进行先验知识匹配,整合多领域方法来识别待测甲骨文变体。同时还进行了多组对比实验以验证模型的鲁棒性和泛化能力,分析了不同数据增强方式下的模型top-k平均准确率和召回率的变化。本文提出的方法在甲骨文变体字的识别方面取得了很好的效果。 本文提出的模型可以有效提高甲骨文变体字的识别效率,减少专家人工识别的工作量,还可以降低甲骨文识别门槛,向大众开放,使得甲骨文的识别更普及,走进普通人生活,让人民群众发现中国古老汉字的魅力,走进古文字,了解中国历史文化,夯实民族自信。此外,本研究为计算机前沿技术介入古文字符识别提供一条新思路,尝试计算机科学和考古学的交叉研究。