基于Transformer的小目标检测算法研究

方文星¹

扫码查看

作者信息

1. 安徽大学
折叠

摘要

小目标检测是计算机视觉领域的一项关键技术，旨在识别和定位图像或者视频中尺寸较小的物体。这一技术在无人机侦查、医学图像处理、自动驾驶等领域中具有重要的应用价值。由于小目标存在特征信息有限、分辨率低、易受背景遮挡等特征，导致当前目标检测算法在小目标检测任务中的性能表现不佳，因此小目标检测在实际应用中是一个极具挑战性的难题，如何有效提高小目标检测的准确性具有重要研究意义。本文从基于窗口自注意力的小数据集图像分类算法研究入手，进而深入到基于Transformer的小目标检测算法研究，这两个研究工作虽在应用场景上有所不同，但在技术路线和理论基础上有着紧密的联系。前者不仅是为了探索Transformer在图像处理方面的潜力，同时也为后者研究小目标检测提供理论基础和技术支撑，从而确保本文的逻辑性和连贯性。本文的主要工作如下: (1)针对当前基于Transformer的图像分类算法在处理小数据集时面临分类精度低、泛化能力不足的问题，本文提出一种基于窗口自注意力的小数据集图像分类算法(LVT)。该算法引入一个创新的骨干网络结构，通过窗口自注意力与全局自注意力的结合，有效学习像素间的相互关系。并在骨干网络后设计一种新的注意力池化模块，对从骨干网络得到的特征序列进行细致融合。通过在CIFAR-10数据集上进行实验，本文LVT算法与当前图像分类领域的两个主流算法ViT、ResNet110相比，在分类精度上分别提高了13.79％和1.75％，证明本文LVT算法在小数据集图像分类中的优越性。 (2)针对DETR(DEtectionTRansformer)算法在小目标检测中容易出现漏检、误检的问题，本文提出一种基于改进DETR的小目标检测算法。在该算法中，首先修改了查询向量的输入方式，通过将查询向量嵌入到特征矩阵而非传统地输入到Transformer解码器中。接着，该算法采用了一个结合窗口自注意力和全局自注意力的编码器，以替代标准Transformer编码器。最终，算法引入了IIoU算法，以解决传统IoU算法对小目标敏感度不足的问题。通过在VisDrone2019数据集上进行实验，本文改进DETR算法与DETR算法相比，在核心性能指标mAP0.5上提高了2.3％,证明了本文改进DETR算法在提高小目标检测精度上的有效性。

关键词

注意力机制/Transformer/小目标检测/图像分类

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

孙长银

学位年度

2024

学位授予单位

安徽大学

语种

中文

中图分类号

段落导航