多网络和多头注意力融合的场景文本识别算法
Scene text recognition algorithm based on multi-network and multi-head attention fusion
贾小云 1翁佳顺 1刘颜荦1
作者信息
- 1. 陕西科技大学电子信息与人工智能学院,陕西 西安 710021
- 折叠
摘要
针对场景文本识别算法忽略整个文本的全局信息内容,提出多网络和多头注意力融合的自然场景文本识别算法.首先使用多网络融合结构,设计多种残差模块在视觉特征中捕获上下文特征和语义特征.其次在字符预测过程中提出多头注意力机制编码器,将位置信息、视觉特征和分类信息拼接成新的特征空间并重新加权.实验结果表明该模型能更好的利用位置特征,全局语义特征和上下文特征更准确地识别到文本内容,提高了模型的准确率.
关键词
场景文本识别/多网络融合/多头注意力机制/特征提取Key words
scene text recognition/multi-network fusion/multi-head attention mechanism/feature extraction引用本文复制引用
出版年
2023