基于深度学习的民国纸币特定文字的检测与识别

杜欣¹

扫码查看

作者信息

1. 上海师范大学
折叠

摘要

纸币研究是货币史、经济史研究的重要组成部分。民国时期仅发行过纸币的地方银行就约有134家，纸币从某个角度体现了当时社会政治经济的现状。民国纸币上的信息包括发行机构，冠字号码、年号、签字和面额等。利用计算机自动高效的提取民国纸币中的文字信息，对馆藏纸币数字化储藏系统的开发有着重要的意义。由于民国纸币文字信息位置不固定、出于防伪设计的文复杂构图、艺术字体以及大量弯曲文本等因素，增加了民国纸币检测识别的难度。本文基于深度学习技术，解决受种类繁杂、复杂背景干扰引起的民国纸币文字定位不准、文字识别难度大等问题，以实现纸币图像上的文字识别为研究主线，开展基于民国纸币场景下的文字检测算法和识别算法的研究。主要研究工作如下：（1）针对纸币种类繁杂，出于防伪设计的复杂构图导致的文字检测不准的问题，提出了一种结合残差注意力机制的改进YOLOV5模型，以实现纸币的面额、发行机构和冠字号码区域的精准定位。对主流检测和识别模型框架进行分析实验，确立了以检测模型框架YOLOV5，识别模型框架CRNN为主体的研究思路。在YOLOV5的残差结构C3中结合注意力机制技术，形成基于残差结构的注意力机制模块，提高了模型提取图像特征的性能；引入了基于内容感知重组的上采样算法CARAFE，使得模型在上采样过程中获得更大的感受野；采用2D空间维度的激活函数FReLU，使得模型在拟合中能够结合空间上下文关系，弱化了民国纸币文字区域的视觉干扰问题。通过在民国纸币数据集上进行实验，结果显示纸币文字检测准确率高达99.3%。与YOLOV5和YOLOV7相比，本方法在检测精度上均有着优异的表现。（2）利用识别模型框架CRNN，结合自建民国纸币文字库，经特征提取、序列预测和序列翻译输出识别结果，提升了民国纸币文字识别的准确率。通过实验结果表明，民国纸币识别模型准确率达到了99.94%，平均每张图片的识别耗时仅346.26毫秒。平均编辑距离达到了0.9998。对比Paddle深度学习框中的PP-OCR“ch_ppocr_mobile_v2.0”识别率高了32.84%，对比“ch_PP-OCRv3_rec”识别率高了24.94%，对比“ch_PP-OCRv2_rec”识别率高了34.94%。显著提升了检测识别的准确率，证明了该模型在实际应用中的有效价值。（3）针对民国纸币中艺术字体和弯曲文本等导致的文字识别不准的问题，建立了民国纸币文字库。为了降低识别模型的误检率，文字库也采用与纸币相一致的繁体字的形式。按照单字、长短句和词组三种形式制作了共13122张数据集，包括5357张单字中文、4412张长短句中英文文本和3353张词组；在字库中添加了民国纸币文字库字典，限制了识别模型预测范围，避免输出民国纸币文字库之外的字符。

关键词

深度学习/民国纸币文字库/文字检测/文字识别/注意力机制

引用本文复制引用

授予学位

硕士

学科专业

电子信息

导师

王笑梅

学位年度

2023

学位授予单位

上海师范大学

语种

中文

中图分类号

段落导航