基于Anchor-free深度学习网络的场景文本检测算法

倪梦媛¹

扫码查看

作者信息

1. 南京邮电大学
折叠

摘要

自然场景中的文字往往包含着丰富的语义信息，准确提取图像中的文字对机器场景理解、人工智能发展及工业自动化生产等行业都有着重要的作用。因此，对场景文字检测技术的研究非常重要。与通用目标不同，场景图像中的文本不仅具有更多的尺度，而且容易受到复杂背景的干扰。随着深度学习的飞速发展，基于深度学习的文本检测方法也层出不穷。目前基于深度学习的场景文本检测算法大体上可分为三类：基于回归、基于分割和回归与分割混合的文本检测算法。依据是否使用锚框，基于回归的算法又可以分为基于anchor和anchor-free两种方法。近年来，基于anchor-free的文本检测算法因其简单优雅的网络结构而备受关注。本文主要围绕基于anchor-free的场景文本检测算法进行研究，主要的研究内容如下：（1）提出了基于残差结构的改进型EAST算法。在高效准确的场景文本检测（an Efficient and Accurate Scene Text Detetor,EAST）算法基础上引入残差结构，在每一个卷积块后增加若干残差模块，通过增加网络深度扩大了感受野，同时解决了梯度消失的问题。其次，对损失函数进行了改进，将预测文本框与真实文本框中心点间的距离作为惩罚项加入损失函数，解决了传统交并比损失在预测框与文本框不相交时梯度无法回传的问题。该算法在ICDAR2015和MSRA-TD500数据集上进行实验，相比EAST检测精度明显提高。（2）提出了基于感受野模块和笔画宽度变换的改进型EAST算法。首先，受人类视觉系统感受域的启发，将常规卷积和不同扩张率的空洞卷积结合后进行通道拼接，组成了感受野模块（Receptive Field Block,RFB）,使用了步长为2的RFB模块替代特征提取层每个stage的最后一个卷积层和池化层，加强了特征描述的稳定性，并在最后一个stage再接入一个RFB模块以扩大感受野。另外，在非极大值抑制阶段后增加了一个笔画宽度变换（Stroke Width Transform,SWT）阶段，将预测文本框向首尾两侧按一定规则扩大，并进行笔画宽度变换，根据条件判断扩展区域是否存在文本信息，从而补全长文本。该算法在ICDAR2017RCTW及MSRA-TD500数据集上实验，不仅增加了定位的准确度，还大大改善了长文本的检测效果。（3）提出了一种基于CornerNet的场景文本检测算法，以包含位置信息的中心坐标替代了嵌入向量进行左上角和右下角的关键点匹配。该算法通过检测左上角和右下角这一对关键点来定位文本框。对于每一个关键点，都从其位置预测一个指向目标文本中心点的向量，并根据该向量产生一个中心点坐标，若两个中心点相近且都处于预测框的中心区域内，则这两个关键点匹配成功。此外，在损失函数部分添加了向心向量损失替代原推拉损失。该算法与CornerNet算法在ICDAR2015数据集上进行了对比实验，精度提升显著。

关键词

场景文本检测/卷积神经网络/锚框使用/残差结构/感受野模块

引用本文复制引用

授予学位

硕士

学科专业

电路与系统

导师

方承志

学位年度

2022

学位授予单位

南京邮电大学

语种

中文

中图分类号

段落导航