摘要
小目标检测是计算机视觉领域的一项关键技术,旨在识别和定位图像或者视频中尺寸较小的物体。这一技术在无人机侦查、医学图像处理、自动驾驶等领域中具有重要的应用价值。由于小目标存在特征信息有限、分辨率低、易受背景遮挡等特征,导致当前目标检测算法在小目标检测任务中的性能表现不佳,因此小目标检测在实际应用中是一个极具挑战性的难题,如何有效提高小目标检测的准确性具有重要研究意义。 本文从基于窗口自注意力的小数据集图像分类算法研究入手,进而深入到基于Transformer的小目标检测算法研究,这两个研究工作虽在应用场景上有所不同,但在技术路线和理论基础上有着紧密的联系。前者不仅是为了探索Transformer在图像处理方面的潜力,同时也为后者研究小目标检测提供理论基础和技术支撑,从而确保本文的逻辑性和连贯性。本文的主要工作如下: (1)针对当前基于Transformer的图像分类算法在处理小数据集时面临分类精度低、泛化能力不足的问题,本文提出一种基于窗口自注意力的小数据集图像分类算法(LVT)。该算法引入一个创新的骨干网络结构,通过窗口自注意力与全局自注意力的结合,有效学习像素间的相互关系。并在骨干网络后设计一种新的注意力池化模块,对从骨干网络得到的特征序列进行细致融合。通过在CIFAR-10数据集上进行实验,本文LVT算法与当前图像分类领域的两个主流算法ViT、ResNet110相比,在分类精度上分别提高了13.79%和1.75%,证明本文LVT算法在小数据集图像分类中的优越性。 (2)针对DETR(DEtectionTRansformer)算法在小目标检测中容易出现漏检、误检的问题,本文提出一种基于改进DETR的小目标检测算法。在该算法中,首先修改了查询向量的输入方式,通过将查询向量嵌入到特征矩阵而非传统地输入到Transformer解码器中。接着,该算法采用了一个结合窗口自注意力和全局自注意力的编码器,以替代标准Transformer编码器。最终,算法引入了IIoU算法,以解决传统IoU算法对小目标敏感度不足的问题。通过在VisDrone2019数据集上进行实验,本文改进DETR算法与DETR算法相比,在核心性能指标mAP0.5上提高了2.3%,证明了本文改进DETR算法在提高小目标检测精度上的有效性。