无线互联科技2024,Vol.21Issue(19) :32-36.

基于OCR技术的档案智能化收集方法研究

Research on intelligent collection method of archives based on OCR technology

张婷琳 陈祥本 丁晔 张勇
无线互联科技2024,Vol.21Issue(19) :32-36.

基于OCR技术的档案智能化收集方法研究

Research on intelligent collection method of archives based on OCR technology

张婷琳 1陈祥本 2丁晔 1张勇2
扫码查看

作者信息

  • 1. 盐城工学院,江苏 盐城 224051
  • 2. 盐城市科学技术情报研究所,江苏 盐城 224002
  • 折叠

摘要

为实现档案信息的智能化管理,文章提出了一种轻量化的端到端档案智能化收集系统.首先采用轻量化的目标检测神经网络PP-PicoDet作为布局检测器,用于对档案材料的版面分析;然后采用SLANet深度学习神经网络进行表格的结构化识别;最后使用开源的Paddle OCR引擎进行文本识别.系统对表格识别的准确度达到 75.8%,印刷体文本识别准确度达到 98.3%,总推理时间少于 0.85 s.该系统为实现端到端的档案资料智能化收集,提高档案资料整理的效率提出了一种有效解决方案.

Abstract

In order to realize the intelligent management of file information,a lightweight end-to-end intelligent file collection system is proposed.Firstly,a lightweight object detection neural network PP-PicoDet is used as a layout detector to analyze the layout of archival materials.Then,SLANet deep learning neural network is used for structural recognition of the tables.Finally,the open source Paddle OCR engine is used for text recognition.The accuracy of the system for table recognition is 75.8%,the accuracy of printed text recognition is 98.3%,and the total reasoning time is less than 0.85s.This system brings forward an effective solution to realize the intelligent collection of file data from end to end and improve the efficiency of file data sorting.

关键词

档案智能化收集/深度学习/光学字符识别/中文表格/手写体识别

Key words

intelligent collection of archives/deep learning/optical character recongnition/Chinese form/handwriting recognition

引用本文复制引用

基金项目

2023年盐城市科技计划项目(基础研究计划)(YCBK2023025)

盐城工学院引进人才科研项目(XJR2023014)

2024年江苏省大学生创新创业项目()

出版年

2024
无线互联科技
江苏省科学技术情报研究所

无线互联科技

影响因子:0.263
ISSN:1672-6944
段落导航相关论文