首页|基于视觉语言的文字识别方法综述

基于视觉语言的文字识别方法综述

A Review of Visual Language Based Text Recognition Methods

扫码查看
从光学字符识别(OCR)的基础到自然语言处理在文字识别中的应用,再到视觉语言模型在文字识别领域的最新进展,详细介绍了文字识别的各个步骤,包括图像预处理、特征提取、字符分割和识别,并讨论了多种先进技术和模型如对比学习、多模态融合,以及其他视觉语言模型结合的文字识别方法.此外,还比较了不同方法在多个数据集上的性能,并讨论了文字识别领域面临的挑战和限制.
From the foundation of Optical Character Recognition(OCR)to the application of natural language processing in text recognition,to the latest progress of visual language models in the field of text recognition.This paper introduces in detail the various steps of text recognition,including image preprocessing,feature extraction,character segmentation and recognition,and discusses a variety of advanced technologies and models such as contrast-based Xi,multimodal fusion,and other visual language models.In addition,the performance of different methods on multiple datasets is compared,and the challenges and limitations in the field of text recognition are discussed.

optical character recognitionnatural language processingcomparative learningmultimodal fusionvisual language modeling

陈曦、陆利坤、王彤、曾庆涛

展开 >

北京印刷学院,北京 102600

光学字符识别 自然语言处理 对比学习 多模态融合 视觉语言模型

北京市教委出版学新兴交叉学科平台建设-数字喷墨印刷技术及多功能轮转胶印机关键技术研发平台北京市数字教育研究重点课题北京市高教学会立项面上项目(2023)北京印刷学院校级科研项目北京印刷学院校级科研项目北京印刷学院校级科研项目北京印刷学院校级科研项目北京印刷学院学科建设和研究生教育专项北京市自然科学基金

04190123001/003BDEC2022619027MS202316820190122019Ec202303Ea202301E620240521090122012210903230091212010

2024

北京印刷学院学报
北京印刷学院

北京印刷学院学报

影响因子:0.247
ISSN:1004-8626
年,卷(期):2024.32(6)