首页|基于OCR技术的档案智能化收集方法研究

基于OCR技术的档案智能化收集方法研究

扫码查看
为实现档案信息的智能化管理,文章提出了一种轻量化的端到端档案智能化收集系统。首先采用轻量化的目标检测神经网络PP-PicoDet作为布局检测器,用于对档案材料的版面分析;然后采用SLANet深度学习神经网络进行表格的结构化识别;最后使用开源的Paddle OCR引擎进行文本识别。系统对表格识别的准确度达到 75。8%,印刷体文本识别准确度达到 98。3%,总推理时间少于 0。85 s。该系统为实现端到端的档案资料智能化收集,提高档案资料整理的效率提出了一种有效解决方案。
Research on intelligent collection method of archives based on OCR technology
In order to realize the intelligent management of file information,a lightweight end-to-end intelligent file collection system is proposed.Firstly,a lightweight object detection neural network PP-PicoDet is used as a layout detector to analyze the layout of archival materials.Then,SLANet deep learning neural network is used for structural recognition of the tables.Finally,the open source Paddle OCR engine is used for text recognition.The accuracy of the system for table recognition is 75.8%,the accuracy of printed text recognition is 98.3%,and the total reasoning time is less than 0.85s.This system brings forward an effective solution to realize the intelligent collection of file data from end to end and improve the efficiency of file data sorting.

intelligent collection of archivesdeep learningoptical character recongnitionChinese formhandwriting recognition

张婷琳、陈祥本、丁晔、张勇

展开 >

盐城工学院,江苏 盐城 224051

盐城市科学技术情报研究所,江苏 盐城 224002

档案智能化收集 深度学习 光学字符识别 中文表格 手写体识别

2023年盐城市科技计划项目(基础研究计划)盐城工学院引进人才科研项目2024年江苏省大学生创新创业项目

YCBK2023025XJR2023014

2024

无线互联科技
江苏省科学技术情报研究所

无线互联科技

影响因子:0.263
ISSN:1672-6944
年,卷(期):2024.21(19)