摘要
作为计算机视觉中的经典任务,常规目标检测旨在定位一张图片上感兴趣的物体位置并对其进行分类。虽然常规目标检测在闭集设定下取得了重大进步,但其只能支持一组固定的训练类别,而不能识别现实中的未知物体。因此,类别不可知目标检测任务由于不关注实例的具体类别,直接定位图像中的所有可能的前景物体,逐渐引起了关注。然而,这类定位器利用二进制标签来训练,缺乏多标签分类信息的监督,在更下游任务中的可扩展性受限。本文发现,直接结合少量样本对定位器进行微调会导致其无法在感兴趣的未知类别上实现快速泛化,也会丧失对于未知物体的定位能力。 基于此,本文通过结合少样本学习方法来扩展类别不可知目标检测任务,提出基于少样本学习的开放世界目标检测(Open-WorldFew-ShotObjectDetection,OFOD)。与类别不可知目标检测任务相比,基于少样本学习的开放世界目标检测可以通过学习少量样本来准确地识别出未知物体。具体而言,本文提出了一个新的网络框架,称为OFDet,它在类别不可知目标检测器上进行建模,并通过基于开放世界的基础训练以及基于少样本学习的微调训练的两阶段进行扩展。在第一阶段中,本文提出Base-OFDet模型,通过设计类别不可知目标定位模块以及基础分类模块来解耦检测和定位任务,同时还解耦了多个模块回传骨干网络的梯度以提高性能。在第二阶段中,通过权重初始化策略以及类别不可知目标定位模块生成的高质量候选区域,本文首先提出了基于迁移学习范式的TF-OFDet模型,设计了检测新物体的新颖类别检测模块以及用于定位未知物体的未知候选框采样算法;同时本文提出了基于元学习范式的Meta-OFDet模型,额外新增支持分支,通过支持类别注意力向量与感兴趣候选区域特征的聚合操作,实现对于新颖类别的检测。 本文在PASCALVOC和COCO数据集上进行了类别不可知目标检测、少样本目标检测和基于少样本学习的开放世界目标检测任务的广泛实验。实验评估结果表明,本文所提出的方法在两个传统的基准任务以及本文新提出的任务上均表现优秀。特别在基于少样本学习的开放世界目标检测任务上,本文的方法在未知类的平均召回率上取得了最优的结果(32.5%),并获得了新颖类别较高的的平均精度(15.7%)。同时,本文通过消融实验以及扩展实验验证了所提方法的有效性。