具有自校正与注意力机制相结合的场景文本检测

Scene text detection with self-calibration and attention mechanism

孙鹏 ¹刘粤 ¹强观臣 ¹熊炜 ²付尧 ¹李利荣³

扫码查看

作者信息

1. 湖北工业大学电气与电子工程学院,湖北武汉430068
2. 湖北工业大学电气与电子工程学院,湖北武汉430068;襄阳湖北工业大学产业研究院,湖北襄阳441003;美国南卡罗来纳大学计算机科学与工程系,南卡罗来纳哥伦比亚29201
3. 湖北工业大学电气与电子工程学院,湖北武汉430068;襄阳湖北工业大学产业研究院,湖北襄阳441003
折叠

摘要

在日常生活中,存在着丰富的文本信息,对这些信息的提取,能够极大地提高人们的生活品质.但自然场景中文本信息表达形式丰富多样,文本形状各异,在检测过程中存在误检、文本区域定位不准问题.针对以上不足,本文提出了一种具有自校正与注意力机制相结合的文本检测方法.首先,在ResNet50骨干网络中嵌入自校正卷积(self-calibrated convolution,SConv)及高效通道注意力(efficient channel attention,ECA),使网络能够校正全局无关信息的干扰,并集中关注于文本区域,提取更加丰富的语义信息;其次,在特征融合后加入协调注意力(coordinate attention,CA),纠正不同尺度的特征图在融合过程中产生的位置偏差.最后,通过修正后的特征图预测得到多个不同尺度的文本实例,采用渐进尺度扩展算法,求出最终检测到的文本实例.实验结果表明,在任意方向数据集ICDAR2015以及弯曲文本数据集Total-Text、SCUT-CTW1500上,相比于改进前的ResNet50综合指标F值分别提升了 1.0％、5.2％、5.4％,证明了本方法具有良好的检测能力.

关键词

自校正卷积(SConv)/高效通道注意力(ECA)/协调注意力(CA)/渐进尺度扩展算法

引用本文复制引用

基金项目

国家自然科学基金(61571182)

国家自然科学基金(61601177)

国家留学基金(201808420418)

湖北省自然科学基金(2019CFB530)

湖北省科技厅重大专项(2019ZYYD020)

襄阳湖北工业大学产业研究院科研项目(XYYJ2022C05)

出版年

2022

光电子·激光

天津理工大学中国光学学会

光电子·激光

CSCD北大核心

影响因子：1.437

ISSN：1005-0086

参考文献量18

段落导航