摘要
场景文本检测作为场景文本识别的关键环节,主要任务是在自然场景中找到文本位置。虽然水平文本的检测技术已取得较好的检测结果,但由于弯曲文本本身的特殊性,通过回归检测框的方法不能精准地表示其形状。基于图像分割的方法旨在对像素点进行预测来表示任意形状的文本,因此本文优化特征提取的方法,采用基于图像分割的方法来增强网络的学习能力,进而优化分割结果。主要研究内容具体如下: (1)选用改进后的HRNet作为主干网络以保留更多的细节信息来提升网络检测能力。考虑到场景文本实例过小,为了避免传统的主干网络由于多次的卷积或池化操作导致特征尺寸过小、甚至丢失小目标信息的问题,本文通过可变形卷积和激活函数SMU来改进拥有多个分支的HRNet算法,让网络在特征提取过程中可以保留文本实例的细节和位置信息并学习有效特征。通过对比实验证明了方法的可行性。 (2)本文提出基于注意力的场景文本检测算法。为了让网络更加关注文本位置信息,本文通过加入文本注意力模块及其损失函数来优化检测模型。首先本文提出文本区域注意力模块,主要将该模块用于提取特征之后、可微二值化之前来优化整个网络检测模型。在进行预测文本之前通过加入文本注意力模块来加强主干网络提取到的特征,从而提高网络检测性能;其次在相应模块上加入了损失函数,让网络更好地学习特征。通过消融实验证明该方法的有效性。 本文提出的算法在水平文本和弯曲文本数据集上进行测试。该算法在水平文本上取得以下结果:在ICDAR2015数据集上F-measure达到了 85.7%,在MSRA-TD500数据集上F-measure达到了 85.0%;在弯曲文本上取得如下结果:在Total-text数据集上F-measure 达到了 84.4%,在 CTW1500 数据集上 F-measure 达到了 83.4%。