信息技术与信息化2024,Issue(5) :5-9.DOI:10.3969/j.issn.1672-9528.2024.05.001

基于动态排列自回归的场景文本识别网络

王嘉宝 陈宏辉 陈平平
信息技术与信息化2024,Issue(5) :5-9.DOI:10.3969/j.issn.1672-9528.2024.05.001

基于动态排列自回归的场景文本识别网络

王嘉宝 1陈宏辉 1陈平平1
扫码查看

作者信息

  • 1. 福州大学物理与信息工程学院 福建福州 350108
  • 折叠

摘要

随着计算机视觉广泛渗透到生产和生活中的各个领域,场景文本识别面临着愈发复杂的考验.纯视觉的场景文本识别模型侧重于构建有效的视觉特征提取网络,而缺乏对文本语义的理解,因此在处理遮挡或模糊文本图像时常遇到瓶颈.针对该问题,提出了一种利用语义信息辅助识别任务的场景文本识别算法.首先通过Transformer视觉编码器ViT提取特征,其次利用双分支结构的特征交互模块增强视觉特征,接着联合动态排列语言模型实现自回归解码.所提出的算法充分利用视觉特征和语义特征,有效地减少了遮挡等复杂文本的识别难度,实现了对场景文本的鲁棒性识别.实验结果表明,所提出的算法在 6个基准数据集上实现了96.65%的平均识别精度,展现了显著的竞争力.

关键词

深度学习/场景文本识别/动态排列语言模型/自回归

引用本文复制引用

出版年

2024
信息技术与信息化
山东电子学会

信息技术与信息化

影响因子:0.29
ISSN:1672-9528
段落导航相关论文