摘要
自然界中,人们能够快速理解周围环境的主要方式之一就是捕获文字信息。自然场景中的文字能够让人们超越时间与空间的维度进行信息交流,所以场景文本分割与检测一直是人工智能时代下计算机视觉方向中比较热门的研究内容。相关研究成果已经被应用到人们生活的方方面面,如快递行业的图像扫描自动填写寄件信息、自动驾驶获取场景信息、智慧交通领域的车牌信息识别等,这些场景文本分割与检测技术的应用,为人们的生活带来很大便捷。但是由于自然界中环境复杂,采集的场景文本图像质量不高,图像中的文本形状大小各异等,这些问题使得场景文本分割与检测任务仍然面临着严峻的挑战。 面对以上问题,本文提出了场景文本分割算法与场景文本检测算法,同时在不同数据集上进行了实验验证。总结来说,主要贡献如下: 1、提出一种基于分割网络的自然场景文本分割算法。该算法选择经典的分割网络DeepLabv3+和HRNetv2作为基础分割网络,针对文字大小不同、场景文本图像背景复杂问题设计了相似性特征提取模块与特征融合模块。其中相似性特征提取模块是根据一般场景图像中文字纹理信息与背景纹理信息不同,同一张场景图像经过不同的数据增强,得到的特征表示应该是相同的,所以相似性特征提取模块将得到的同一张场景图像的两个特征表示进行对比,从而获取文本信息的关键特征。特征融合模块是为了训练模型学习不同尺度的文字信息,通过对分割网络得到的特征进行池化操作,以获得文字边缘信息和场景图像全局信息,最后将不同的特征表示信息进行融合,从而对场景文本图像达到更好的分割效果。实验结果表明,两个模块的加入能够提高基础分割网络的文字分割效果,与其它经典方法相比,在不同的评价标准中都获得不错的效果。 2、提出一种基于多尺度可形变Transformer的中文场景字符检测算法。该算法选择可形变Transformer作为基本网络结构,针对场景文本图像质量较低,中文字符结构复杂问题设计基于圆形交并比的损失与多尺度可形变注意力计算。首先使用特征金字塔网络对场景文本图像进行编码得到不同尺度的特征信息,再将不同尺度的特征送入到可形变Transformer网络结构中,通过其中的可形变注意力机制对特征进行编码学习,最后对文本图像中的字符进行定位。同时,为了使得字符检测框更完整的包含整个字符,针对泛化交并比指标的不足,提出圆形交并比指标,采用基于圆形交并比的损失与基于泛化交并比的损失共同训练神经网络。最后,在三个字符级中文场景数据集上进行实验,与不同的文本检测方法进行对比,所提算法在三个数据集上都得到很好的检测效果。