基于金字塔卷积和特征增强的细粒度图像分类

李运¹

扫码查看

作者信息

1. 安徽大学
折叠

摘要

图像分类作为计算机视觉领域中重要的研究方向之一，它吸引了越来越多研究者的注意。其中，细粒度图像分类是对一个大类中的子类进行划分，它在日常生活中有广泛的应用，如:鸟类识别、车牌识别、超市自助结账等等。然而，细粒度图像分类任务中有一项极大的挑战:类间差异性较小，类内差异性较大。为了解决这个问题，早期人们借助人工标注的边界框和局部标签来学习细粒度特征信息，但人工标签不易获得，这大大阻碍了细粒度图像分类在日常生活中的应用。因此研究者逐渐把重心放到了只需要图像级标签的弱监督学习方式。这两种方式共同的特点就是关注细节信息，由于不同的子类都属于一个超类，外形十分相似，所以只能通过细节信息分辨出不同的子类。因此本文探索在不使用边界框和局部标签的情况下，充分捕获细粒度特征信息。本文基于注意力机制进行了细粒度图像分类的研究，以突出判别性区域，从多个角度捕获多样化和判别性的特征信息。本文的工作内容如下: (1)基于金字塔卷积和多频空间注意力的细粒度图像分类。大多数现有的细粒度图像分类方法都使用标准卷积提取特征，这导致了许多细微但重要的特征丢失。此外，现有的基于注意力的细粒度图像分类方法都是通过一个简单的全局平均池化压缩特征，这非常不利于捕获复杂的输入特征信息，为了解决这些问题，本文提出了金字塔卷积和多频空间注意的细粒度图像分类方法。为了捕获不同层次的空间上下文依赖性，避免细节特征丢失，本文在主干网络中引入了使用不同大小卷积核的金字塔卷积;为了减少背景噪声的影响并获得多样化的特征表示，提出了多频空间注意模块，将特征沿通道维分成若干组，在每个组中，使用离散余弦变换捕获多个频率域的特征信息。此外，为了挖掘更多判别性区域，使用峰值抑制来抑制多频空间注意增强后的高响应区域，迫使后续网络挖掘其他的判别性区域。 (2)基于关系感知空间和通道特征增强的细粒度图像分类。经过卷积神经网络处理之后的特征包含空间和通道两方面，它们都蕴含着丰富的特征信息。为了同时从空间和通道突出判别性区域和特征并抑制背景噪声，本文同时在空间和通道添加注意力机制。除此之外，以往的基于注意力机制的细粒度图像分类方法在设计注意力时，忽略了全局结构性信息，这对解决细粒度图像分类的类内差异性大挑战十分重要。因此，本文在使用金字塔卷积作为特征提取的主干网络的基础上，使用关系感知空间和通道注意力来探索个体特征之间以及与全局特征之间的结构性信息，捕获各个特征之间的关系。除此之外，还通过峰值抑制从空间和通道两方面来捕获更多的判别性特征信息，从而获得更加多样化的特征表示。

关键词

细粒度图像分类/金字塔卷积/特征增强/注意力机制/离散余弦变换

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

徐沁

学位年度

2023

学位授予单位

安徽大学

语种

中文

中图分类号

段落导航