首页|轻量级文字检测与识别算法的研究与应用

轻量级文字检测与识别算法的研究与应用

蒋子敏

轻量级文字检测与识别算法的研究与应用

蒋子敏1
扫码查看

作者信息

  • 1. 南京航空航天大学研究生院计算机科学与技术学院
  • 折叠

摘要

作为计算机视觉领域基础及热点研究之一,文字检测与识别引起了大家的广泛关注与讨论。相较传统图像处理方法,基于深度学习的方法可以实现图像中文字信息的自动获取,从而进一步提高准确率,极大地节约人工及时间成本。但巨大的模型参数量以及内存消耗限制了其在小型设备如移动终端上的应用与发展,难以满足人们日益增长的需求。基于此,本文对轻量级文字检测与识别算法进行探讨并将其应用于公共数据集及不同领域的数据集之中,实现快速而准确的PCB芯片及体育彩票文字检测与识别。本文的主要贡献如下: (1)对现有文字检测与文字识别相关工作进行探讨。由于文字是一种特殊的目标,因此本文对相关目标检测算法、文字检测算法、轻量级网络以及文字识别算法的研究背景、发展现状等进行研究与讨论,同时,对卷积神经网络的设计、注意力机制、循环神经网络等相关技术的内容进行具体的阐述与研究; (2)针对现有文字检测模型参数量大、内存消耗大等问题,提出了一种基于轻量级神经网络的文字检测算法。受目标检测算法以及轻量级网络设计思想的启发,本文提出的算法以SSD框架为基础。为减小模型参数量,特征提取主干网络选用改进的PeleeNet,并进行通道数的统一。为充分检测不同大小、长宽比的文字,新增卷积层等操作实现多尺度特征图检测。为满足文字特点,利用先验知识,通过聚类对anchor值进行设计。同时,引入注意力机制,提高网络的整体性能。实验证明,本文提出算法在公共数据集上保证检测准确率的情况下具有更小的模型,同时在PCB芯片以及体育彩票数据集上具有更好的性能; (3)针对现有文字识别模型计算量大、内存限制大等问题,提出了一种基于轻量级神经网络的文字识别算法。该算法框架主要包括卷积神经网络进行特征提取,循环神经网络进行标签预测以及CTC实现转录,最终得到预测序列。为减小模型参数量,采用多路小卷积及堆叠DenseLayer充分提取特征。同时,为加速网络的收敛,提高模型的泛化能力,引入BN归一化。结果表明,该算法与现有文字识别算法相比,在公共数据集上保证识别准确率的情况下模型更小、识别速度更快,同时在PCB芯片及体育彩票数据集中具有更好的表现效果; (4)设计并实现了一个体育彩票票面文字识别系统。该系统针对体育彩票数据集,实现了快速而准确的票面文字的检测与识别。同时,本文建立了专门用于文字检测与识别的体育彩票数据库,该数据库中平均每张彩票图像大约标注目标30个,共标注大约31500个目标。该数据库可以对文字检测与识别性能进行有效评估。

关键词

轻量级网络/文字检测/文字识别/体育彩票识别/PCB芯片识别

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

刘宁钟

学位年度

2021

学位授予单位

南京航空航天大学

语种

中文

中图分类号

TP
段落导航相关论文