基于深度学习的简牍文字识别与检测方法研究

龚凯林¹

扫码查看

作者信息

1. 吉林大学
折叠

摘要

简牍是秦汉时期的珍贵历史档案，亦是知识宝库，随着文化数字化建设的兴起，现代科技被用于加强古代文献的保护、修复和综合利用。建立可靠的简牍文字识别与检测模型可以帮助研究人员更高效、准确地识别简牍文字。简牍文字与现代手写文字在字的尺度、形态、结构等书写风格上存在明显的差异性，且其因古籍文物属性带来的字迹退化等问题，为简牍文字的识别带来了一定的困难。此外，在整条简的文字检测中，由于其文字大小变化多样、排版复杂多变，使得检测难度亦显著提升。针对上述问题，本文以居延新简作为数据来源，对简牍文字的识别和检测方法展开研究，具体内容包括：（1）面向字型多变简牍单文字的可变形卷积分类识别模型。针对简牍文字中文字多变的字型、文字尺度和形态多变以及长期的掩埋导致文字图像噪声严重的问题，采用双边滤波降低图像噪声，并引入可变形卷积，构建结合可变形卷积和SwinTransformer的简牍文字识别模型DeConvSwin。利用可变形卷积的非规则采样特性，来解决文字字型和形态多变的问题。SwinTransformer的层级化特征表达特性，来解决文字尺度变化带来的识别困难的问题。结果表明，简牍文字识别模型相较于单一神经网络对简牍文字的识别精度有所提高，准确率为83.5%，在一定程度上解决简牍文字中字的字型、文字尺度和形态多变的问题。（2）面向复杂版面的单简多文字YOLO检测模型。针对简牍版面复杂导致的图像中文字大小、位置多变问题和断裂、腐化导致的简牍大小不一的问题，引入可变形卷积，构建结合可变形卷积和YOLOv8的简牍文字检测模型DeConvYOLO。利用可变形卷积的非规则采样和可学习ROI特性，得到更准确的简牍文字大小和位置的变化情况；YOLOv8的多尺度融合结构，来解决单简尺度的不同变化；利用SIoU损失函数约束检测模型，得到更准确的文字位置。结果表明，本文提出的DeConvYOLO文字检测模型相较于单一文字检测模型或目标检测模型，在对简牍图像中文字位置的检测结果更准确，准确率为87.90%，在一定程度上解决简牍图像中文字大小和位置多变的问题。（3）简牍文字识别软件设计与开发。基于上述的识别与检测模型的理论，进行简牍文字识别软件平台的设计和开发工作。该软件平台由四个主要模块构成，各个模块的主要功能分别是数据导入、文字位置检测、检测结果的编辑、检测结果的保存、文字识别结果展示和编辑，文字识别结果的存储。这些模块协同工作，有效实现简牍文字的识别与检测应用。

关键词

简牍文字识别/检测方法/深度学习

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

张强/苏永恒

学位年度

2024

学位授予单位

西北师范大学

语种

中文

中图分类号

段落导航