基于卷积神经网络的Logo检测方法研究

孟晔¹

扫码查看

作者信息

1. 山东师范大学
折叠

摘要

随着计算机视觉和互联网技术的不断发展，Logo检测技术在商业宣传、商标侵权检测和城市智能化交通等实际生活中的应用越来越广泛。在商业宣传领域，挖掘图片中的Logo信息进行品牌追踪，并通过分析用户对品牌的偏好进行个性化推荐，可以对品牌宣传起到巨大推动作用；在商标侵权检测领域，通过对Logo图像进行智能检索及识别，可以判定所申请的商标是否存在侵权情况，对产品Logo检测以判定产品是否为虚假产品，为知识产权保护和社会的稳定发展提供保障；在城市智能化交通领域，由于车辆增多、道路拥堵、交通事故频发等问题，路标及车牌检测对交通安全至关重要。因此，Logo检测是一项值得研究的课题。 Logo图像检测技术是通过对输入图像进行处理，在图像中找出Logo所在的区域并判定Logo的具体类别。传统的Logo检测方法由于手工提取特征的局限性导致检测性能较差。目前，随着卷积神经网络的迅速发展和应用，以深度学习为基础的模型也表现出了较高的检测性能。因此，针对现实场景中Logo图像的特点，本文以深度学习方法为基础对Logo检测方法展开研究。在目前已有的大规模数据集和主流检测方法的基础上，通过分析Logo图像的特点和目前检测方法在Logo检测任务上的局限性，本文对基础方法进行了改进以获得更好的检测性能。本文的工作主要包括以下两个方面：（1）设计基于变形卷积和特征融合的Logo检测方法。卷积神经网络在对Logo进行建模时，由于其固定的几何结构不能较好地适应Logo的几何变化，因此检测性能存在一定局限性。针对Logo具有不同的几何变化和目标检测性能差的问题，本文提出了基于变形卷积和特征融合的Logo检测方法。具体来说，本文首先在ResNet50网络中添加可调节的变形卷积模块来学习偏移量和调节权重，使卷积核的采样位置根据Logo的大小、形状自适应调整，充分提取具有不同几何变化的Logo的特征；然后在特征金字塔网络中引入内容感知特征重组算子，根据特征图的语义信息在每个位置生成自适应内核并进行特征重组，获得包含更多语义信息的特征图，改进的特征金字塔网络融合了不同尺度的特征，显著提升了Logo检测的效果；最后在回归过程中引入DIoU损失函数，实现更精准的边界框定位。（2）设计基于动态训练分类器和回归器的Logo检测方法。在训练过程中，网络中的固定设置会限制检测器的性能，比如标签分配策略（固定的IoU阈值设置）和固定的回归损失函数不能灵活地适应候选框的分布变化。理论上来说，高IoU阈值能够获得较高质量的候选框，但在训练初期设置较高IoU阈值会导致正样本数量不足，而低IoU则无法训练出判别高质量候选框的分类器；此外，在回归分支，随着网络训练的进行，回归标签的分布也发生变化，由于候选框质量提高，其均值、方差逐渐下降，固定的设置使得高质量候选框对训练的贡献减少。针对上述问题，本文引入动态的标签分配策略和动态平滑损失函数，具体来说，在训练过程中，根据候选框分布变化自动更新IoU阈值，逐步获得更高质量的候选框；在回归分支，调整回归损失函数参数，使其自动调整参数以适应回归标签的分布，增强高质量候选框对网络训练的贡献。此外，本文在ResNet50网络中使用了不同空洞率的卷积，并通过开关函数自适应选择感受野，以检测不同尺度的Logo。本文在不同规模的数据集上对提出的两个方法进行了实验评估，首先与一些检测性能较高的方法进行了大量的对比实验，然后通过消融实验分别证明每个模块方法的有效性，最后展示可视化结果来说明本文方法对现实场景的Logo图像具有较高的检测性能。

关键词

Logo检测/卷积神经网络/特征融合/动态训练

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

侯素娟

学位年度

2022

学位授予单位

山东师范大学

语种

中文

中图分类号

段落导航