首页|基于紧凑型Vision Transformer的细粒度视觉分类研究

基于紧凑型Vision Transformer的细粒度视觉分类研究

徐昊

基于紧凑型Vision Transformer的细粒度视觉分类研究

徐昊1
扫码查看

作者信息

  • 1. 重庆理工大学
  • 折叠

摘要

细粒度视觉分类(Fine-grained Visual Classification, FGVC)是指从给定的目标种类中区分出其不同子类的任务,具有不同类别间差异小、同一类别内差异大的特点,其核心问题在于如何使分类网络准确定位到具有分辨能力的区域,从而提升捕捉细微差异的能力,这比传统分类有着更大的挑战性。近年来,Vision Transformer(ViT)凭借自注意力机制从而获得全局的注意力信息的能力,在传统分类等计算机视觉领域展现出了很好的效果,但在FGVC任务中还是缺乏进一步分辨细微差距的能力;并且存在着大数据量需求、高计算复杂度的问题,对计算设备要求较高,也通常难以训练,产生不稳定表现。本文深入研究了ViT在细粒度视觉分类中的可行性与表现,并针对ViT中存在的大数据量需求和高计算复杂度等问题,提出了紧凑型的ViT结构,创新地将其应用于细粒度视觉分类任务中,取得了领先的效果。本文的主要研究内容如下: (1) 基于ViT的细粒度视觉分类研究。针对传统基于卷积神经网络的细粒度视觉分类方法中存在的问题进行分析,研究了 ViT 结构在细粒度视觉分类领域中的适应性问题;在Vision Transformer结构的基础上,改进并使用了部位选择模块,该操作可以计算出嵌入向量中最具有区别性的区域并去除冗余信息,并将其输入至最后一个编码层,提升了模型抓取细微差别的能力;添加了包含对比损失与交叉熵损失的混合损失函数,其使用早期编码层中的补丁表示并对更深层的补丁进行正则化,以降低补丁表示的相似性,进一步提升了模型表现。实验表明,所提模块有效地提高了ViT结构在FGVC任务中的分类效果。 (2) 基于紧凑型ViT的细粒度视觉分类研究。针对ViT结构在细粒度视觉分类中存在的大数据量需求和高计算复杂度的问题,使用多层卷积块生成模型输入,保留更多底层信息和归纳偏置,模型可以获得比直接分割而言更多的信息,使其可以高效地提取低维特征;使用序列池化,通过删除分类令牌标记,编码器可以只专注于在补丁中执行自注意力,进一步提升模型性能,极大减小了模型复杂度,消除了对大型数据的依赖,可使得模型在较短的时间内快速收敛。接着,提出了一种基于紧凑型Vision Transformer的细粒度视觉分类模型,其中使用多层卷积块与序列池化技术,减少了计算复杂度,降低了对数据量的需求;使用部位选择模块和混合损失函数,进一步提升模型在细粒度视觉分类中的表现。实验证明,本文所提模型在计算量与数据需求方面有着巨大优势。 本文所提模型在公共数据集CUB-200-2011、Butterfly200、Stanford Dogs、Stanford Cars 和 NABirds 中均进行了实验验证,在只使用少量的数据和计算资源条件下,分别获得了88.9%、87.4%、89.0%、93.4%和 88.0%的准确率,训练时间平均比常用的ViT-B_16模型下降了73.8%,同时比TransFG模型下降了93.9%,并且训练过程中的参数量只有这两种模型的1/4左右。实验结果充分证明,本文所提的模型较之其他主流的方法在数据量需求和计算复杂度方面具有明显的优越性。

关键词

细粒度视觉分类/紧凑型ViT/归纳偏置

引用本文复制引用

授予学位

硕士

学科专业

电子信息(计算机技术)

导师

郭黎

学位年度

2023

学位授予单位

重庆理工大学

语种

中文

中图分类号

TP
段落导航相关论文