摘要
在我国,档案文档数量浩大,种类繁多,所依附的载体更是各不相同。现如今,信息技术日益发展,在信息时代对档案信息的挖掘和利用受到了越来越多的研究者关注,手写档案数字化也是档案信息资源建设过程中必不可缺少的工作。光学字符识别(OCR,Optical Character Recognition)可以从图像中识别出文字,将纸质文档转换成便于编辑、搜索和存储的电子文档,在档案数字化领域具有十分重要的作用。然而,由于档案文档的多样性,打印的文本和手写的文本往往混合出现,即待识别文字既可能是印刷体,也可能是手写体。由于印刷体和手写体具有不同的特征,现有的OCR方法对同时含有印刷体和手写体的文本识别准确率较低,还需要进一步改进。因此,本课题提出了一种分级分类的识别方法,首先,把档案图像中的印刷体和手写体进行分类,得到印刷体文本块和手写体文本块;然后,用不同的分割算法分别对印刷体文本块和手写体文本块进行字符分割;最后,分别使用针对印刷体和手写体的不同特征设计的卷积神经网络对印刷体字符和手写体字符进行识别。本课题的主要研究内容如下: 1.针对档案图像中同时包含印刷体和手写体汉字的问题,本课题提出一种基于深度学习的目标检测方法对档案中的文本进行分类,使用基于YOLOv5的目标检测网络将档案图像中的文本分为印刷体和手写体。该方法更注重于对档案中的文本类型做出准确的分类和分割,并在YOLOv5网络的基础上结合注意力机制进一步提高档案图像中的文本分类的准确率。 2.将档案图像中的印刷体和手写体分类后,进行文本分割得到印刷体和手写体文本块。然后采用基于投影和连通域的分割算法将文本块分割成单个字符,为下一步的单个字符识别做准备。 3.制作印刷体一级字库3755类汉字,包含13种字体类型,然后结合深度学习的方法设计一种有效的浅层卷积神经网络对印刷体字符进行识别。对于离线手写体汉字识别,采用离线手写体汉字数据集CASIA-HWDB1.1一级字库3755类汉字,通过GoogleNet网络对离线的手写体字符进行识别。 实验结果表明本课题提出的分级分类方法对档案图像中印刷体和手写体的检测精度有了明显提高,其中印刷体和手写体整体检测精度达到96.24%。所使用的分割方法可以对手写体和印刷体文本字符进行有效的分割。印刷体单个字符在测试集的识别准确率为99.62%,手写体单个字符在数据集CASIA-HWDB1.1上的准确率达到92.4%。