基于预训练模型的文本检测和识别框架

张宇哲¹

扫码查看

作者信息

1. 南开大学
折叠

摘要

随着深度学习的飞速发展，人工智能产业化应用成为研究的关键点之一，深度学习算法的落地能够极大地提高生产质量和效率。随着模型复杂度的提升，人们开始研究通过预训练的方式训练通用模型，并在具体下游任务中进行微调，实现算法的快速落地应用。光学字符识别（Optical Character Recognition，OCR）是计算机视觉中的一个热点技术，在产业数字化的过程中，大量OCR需求不断出现。因此设计高效、稳定的OCR快速落地方案具有重要的研究意义和价值。本文以企业生产线中医疗清单识别项目的实际需求出发，提出并设计实现了一个基于预训练模型的文本检测识别框架，探索了使用预训练模型解决生产实际问题的方式。框架的核心思想是，使用少量的应用场景数据，对文本检测和文本识别预训练模型进行微调，并将微调后的模型应用到生产环境中，进行OCR技术的快速落地。针对数据集中出现的低频字符和OOV（out of vocabulary）字符问题，本文结合预训练模型具有较强泛化能力的特点，设计了数据增强模块来均衡数据集中的样本。针对生产线对文本识别高鲁棒性的需求，本文对多个文本识别预训练模型进行微调，并且基于语言模型设计了多识别结果的集成方案。考虑到一些文本识别模型无法充分利用文本标注数据中包含的信息，本文利用标注文本数据对预训练语言模型进行微调，使用微调后的语言模型来辅助文本识别算法中低置信度识别结果的生成。本文选取了多个开源预训练模型进行框架的实现，并收集和标注了医疗清单数据集，在医疗清单场景下对框架整体和各个模块的性能进行测试评估。测试结果表明，本文提出的框架设计思路和优化方案可行且有效，超过了参与对比的其他基线算法。同时本文在实际生产环境中对训练后的框架进行了部署和应用，取得了不错的实际效果，字符串准确率超过了生产线中原有的商用算法。

关键词

光学字符识别/文本检测/文本识别/预训练模型/数据增强

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

张玉志

学位年度

2023

学位授予单位

南开大学

语种

中文

中图分类号

段落导航