光电子·激光2022,Vol.33Issue(5) :479-487.DOI:10.16136/j.joel.2022.05.0761

基于多级特征选择的自然场景文本识别算法

Natural scene text recognition algorithm based on multilevel feature selection

李利荣 张开 张云良 乐玲 周蕾 巩朋成
光电子·激光2022,Vol.33Issue(5) :479-487.DOI:10.16136/j.joel.2022.05.0761

基于多级特征选择的自然场景文本识别算法

Natural scene text recognition algorithm based on multilevel feature selection

李利荣 1张开 2张云良 2乐玲 2周蕾 2巩朋成1
扫码查看

作者信息

  • 1. 湖北工业大学电气与电子工程学院,湖北武汉430064;新能源及电网装备安全监测湖北省工程研究中心,湖北武汉430064
  • 2. 湖北工业大学电气与电子工程学院,湖北武汉430064
  • 折叠

摘要

针对现有场景文本识别方法只关注局部序列字符分类,而忽略了整个单词全局信息的问题,提出了一种多级特征选择的场景文本识别(multilevel feature selection scene text recognition,MFSSTR)算法.该算法使用堆叠块体系结构,利用多级特征选择模块在视觉特征中分别捕获上下文特征和语义特征.在字符预测过程中提出一种新颖的多级注意力选择解码器(multilevel at-tention selection decoder,MASD),将视觉特征、上下文特征和语义特征拼接成一个新的特征空间,通过自注意力机制将新的特征空间重新加权,在关注特征序列的内部联系的同时,选择更有价值的特征并参与解码预测,同时在训练过程中引入中间监督,逐渐细化文本预测.实验结果表明,本文算法在多个公共场景文本数据集上识别准确率能达到较高水平,特别是在不规则文本数据集SVTP上准确率能达到87.1%,相比于当前热门算法提升了约2%.

关键词

场景文本识别/特征序列/自注意力机制/多级注意力选择解码器/中间监督

引用本文复制引用

基金项目

国家自然科学基金(62071172)

新能源及电网装备安全监测湖北省工程研究中心开放研究基金(HBSKF202121)

出版年

2022
光电子·激光
天津理工大学 中国光学学会

光电子·激光

CSCD北大核心
影响因子:1.437
ISSN:1005-0086
被引量1
参考文献量1
段落导航相关论文