摘要
随着计算机视觉和互联网技术的不断发展,Logo检测技术在商业宣传、商标侵权检测和城市智能化交通等实际生活中的应用越来越广泛。在商业宣传领域,挖掘图片中的Logo信息进行品牌追踪,并通过分析用户对品牌的偏好进行个性化推荐,可以对品牌宣传起到巨大推动作用;在商标侵权检测领域,通过对Logo图像进行智能检索及识别,可以判定所申请的商标是否存在侵权情况,对产品Logo检测以判定产品是否为虚假产品,为知识产权保护和社会的稳定发展提供保障;在城市智能化交通领域,由于车辆增多、道路拥堵、交通事故频发等问题,路标及车牌检测对交通安全至关重要。因此,Logo检测是一项值得研究的课题。 Logo图像检测技术是通过对输入图像进行处理,在图像中找出Logo所在的区域并判定Logo的具体类别。传统的Logo检测方法由于手工提取特征的局限性导致检测性能较差。目前,随着卷积神经网络的迅速发展和应用,以深度学习为基础的模型也表现出了较高的检测性能。因此,针对现实场景中Logo图像的特点,本文以深度学习方法为基础对Logo检测方法展开研究。在目前已有的大规模数据集和主流检测方法的基础上,通过分析Logo图像的特点和目前检测方法在Logo检测任务上的局限性,本文对基础方法进行了改进以获得更好的检测性能。本文的工作主要包括以下两个方面: (1)设计基于变形卷积和特征融合的Logo检测方法。卷积神经网络在对Logo进行建模时,由于其固定的几何结构不能较好地适应Logo的几何变化,因此检测性能存在一定局限性。针对Logo具有不同的几何变化和目标检测性能差的问题,本文提出了基于变形卷积和特征融合的Logo检测方法。具体来说,本文首先在ResNet50网络中添加可调节的变形卷积模块来学习偏移量和调节权重,使卷积核的采样位置根据Logo的大小、形状自适应调整,充分提取具有不同几何变化的Logo的特征;然后在特征金字塔网络中引入内容感知特征重组算子,根据特征图的语义信息在每个位置生成自适应内核并进行特征重组,获得包含更多语义信息的特征图,改进的特征金字塔网络融合了不同尺度的特征,显著提升了Logo检测的效果;最后在回归过程中引入DIoU损失函数,实现更精准的边界框定位。 (2)设计基于动态训练分类器和回归器的Logo检测方法。在训练过程中,网络中的固定设置会限制检测器的性能,比如标签分配策略(固定的IoU阈值设置)和固定的回归损失函数不能灵活地适应候选框的分布变化。理论上来说,高IoU阈值能够获得较高质量的候选框,但在训练初期设置较高IoU阈值会导致正样本数量不足,而低IoU则无法训练出判别高质量候选框的分类器;此外,在回归分支,随着网络训练的进行,回归标签的分布也发生变化,由于候选框质量提高,其均值、方差逐渐下降,固定的设置使得高质量候选框对训练的贡献减少。针对上述问题,本文引入动态的标签分配策略和动态平滑损失函数,具体来说,在训练过程中,根据候选框分布变化自动更新IoU阈值,逐步获得更高质量的候选框;在回归分支,调整回归损失函数参数,使其自动调整参数以适应回归标签的分布,增强高质量候选框对网络训练的贡献。此外,本文在ResNet50网络中使用了不同空洞率的卷积,并通过开关函数自适应选择感受野,以检测不同尺度的Logo。 本文在不同规模的数据集上对提出的两个方法进行了实验评估,首先与一些检测性能较高的方法进行了大量的对比实验,然后通过消融实验分别证明每个模块方法的有效性,最后展示可视化结果来说明本文方法对现实场景的Logo图像具有较高的检测性能。