多网络和多头注意力融合的场景文本识别算法

Scene text recognition algorithm based on multi-network and multi-head attention fusion

贾小云 ¹翁佳顺 ¹刘颜荦¹

扫码查看

作者信息

1. 陕西科技大学电子信息与人工智能学院,陕西西安 710021
折叠

摘要

针对场景文本识别算法忽略整个文本的全局信息内容,提出多网络和多头注意力融合的自然场景文本识别算法.首先使用多网络融合结构,设计多种残差模块在视觉特征中捕获上下文特征和语义特征.其次在字符预测过程中提出多头注意力机制编码器,将位置信息、视觉特征和分类信息拼接成新的特征空间并重新加权.实验结果表明该模型能更好的利用位置特征,全局语义特征和上下文特征更准确地识别到文本内容,提高了模型的准确率.

关键词

场景文本识别/多网络融合/多头注意力机制/特征提取

Key words

scene text recognition/multi-network fusion/multi-head attention mechanism/feature extraction

引用本文复制引用

出版年

2023

计算机时代

浙江省计算技术研究所　浙江省计算机学会

计算机时代

影响因子：0.411

ISSN：1006-8228

参考文献量2

段落导航