摘要
近年来,随着高速计算资源的广泛普及和可获得数据的快速增长,深度学习在计算机视觉等领域取得了显著的进展。基于完全监督的模型训练方式在各类计算机视觉任务中已经越来越成熟,所得到的模型能够接近甚至超越人类专家的辨识水平。然而,为了使这些模型系统在实际任务中被普遍应用并表现出优越的识别能力和鲁棒性,通常需要依赖于使用大量精确标注的训练数据。但是,构建这样的数据集往往需要花费高昂的人力资源与时间成本,这样的问题极大地限制了深度学习方法在实际场景中的应用。因此,探索如何在使用无标注或者少标注数据的情况下实现模型良好性能的学习方法成为计算机视觉领域亟待解决的问题之一。而半监督学习方法通过使用少量带标签数据和大量无标签数据来学习数据的表示方法及数据间的潜在联系,可以有效降低模型训练对于数据标注的依赖。因此,本文主要深入研究了与视觉分类任务相关的半监督学习方法,并主要应用于两种分类任务,分别是半监督图像分类任务和半监督缺陷检测任务。本文中对于半监督图像分类任务的研究方法互相关联并存在递进关系,并且其中关键的特征空间重整化策略也对缺陷检测任务起到积极作用。而半监督缺陷检测任务作为一种具有独特数据集设置的分类任务,其相关解决方法与问题与图像分类任务具有明显区别,但是所设计的方法也体现了图像分类任务中关键的一致性学习方法和伪标签思想。本文的主要研究内容与创新总结如下: (1)常用的半监督图像分类模型可以基于一致性正则化方法对无标签数据中进行学习,其核心思想在于约束模型在面对输入扰动或者模型扰动时可以保持输出结果的一致性。现有的一致性正则化方法在半监督分类方法框架中仍然有改进的空间。因此,提出使用特征空间重整化方法用来替代一致性正则化方法,以更好地从无标签数据中学习判别性特征。为了实现这一机制,模型包含了一个基本模型和一个经验模型。特征空间重整化方法以基于群表示理论的特征表示方法为基础,对基础特征和经验特征施加同构约束,即约束基本模型和经验模型的输出特征表示在特征空间中应该尽可能相近。此外,将特征空间重整化方法与伪标签方法结合使用,可以获得一种有效的半监督图像分类模型—FreMatch。FreMatch具有简单高效的优点,可以在多个半监督图像分类数据集上取得较好的性能,并且将特征空间重整化方法和其它半监督图像分类模型相结合都取得了分类性能的提升。 (2)伪标签方法是半监督图像分类方法中经常被使用的另一种重要方法,其核心挑战在于如何选择更多且高质量的伪标签数据进行学习。使用固定的置信度阈值或者使用阶段性的阈值调整方法没有考虑到模型的分类性能在不同类别间以及训练迭代过程中的动态变化情况,会在训练过程中产生数量过少或者质量较差的伪标签数据,从而导致模型对于无标签数据的学习陷入到认知偏差中。因此,提出基于高斯混合模型的动态伪标签估计方法,从提高伪标签数据数量和质量的角度增强对于无标签数据的学习。该方法假设模型对于某一类别的无标签数据的预测分数是从一个具有两种模式(即正样本和负样本)的高斯混合分布中采样得到,并且该假设可以推广到所有的无标签数据上。通过求解高斯混合模型,模型可以在每一轮训练迭代中为每个类别分配符合当前训练状态的动态阈值。此外,为了进一步提高对于无标签数据的学习效率,还提出一种基于特征相似性的一致性正则化方法,并且与动态伪标签估计方法相结合,可以得到一种高效的半监督图像分类模型—DYMatch。经过实验验证,DYMatch在多个半监督图像分类数据集上都可以获得较好的分类性能。在仅使用极少量带标签数据的情况下,DYMatch的分类性能也同样优秀。 为了解决FreMatch模型在使用极少量带标签数据时模型分类性能衰减严重的问题,本文结合动态伪标签估计方法提出一种针对特征空间重整化的动态经验特征计算方法。这一创新有效地改善了FreMatch模型在这种情况下的分类性能。 (3)半监督缺陷检测任务在训练过程中仅使用正常样本,但是要求可以对测试数据中的缺陷样本和正常样本进行区分,从本质上是一类具有特殊数据集设置的分类任务。常用的基于重构任务的半监督缺陷检测方法将缺陷的出现量化为过高的重构误差,而忽略了对于缺陷内容的语义表示学习。为了更好地对图像中的缺陷内容进行建模,并且有效地将缺陷内容与正常内容进行区分。首先,提出基于多尺度语义标志特征的缺陷特征表示方法,该方法利用多尺度语义标志特征来表征图像中具有不同语义概念的像素集合,并通过 Transformer 模型来捕获不同语义概念之间的联系。同时,本文将半监督图像分类任务中关键的一致性学习方法和伪标签思想运用在半监督缺陷检测任务中。首先,使用了特征空间重整化方法以引导和约束特征空间中模型对于语义标志特征的一致性学习过程。并且,为了更好地学习缺陷内容的特征表示,还提出基于Pro_CutPaste人工缺陷标签的缺陷特征学习方法。通过训练模型去完成区分正常样本和人工构造的缺陷样本的代理任务,得到的多尺度语义标志特征可以更好地表征图像中的缺陷模式和正常模式。最后,针对得到的多尺度语义标志特征,使用基于高斯核密度估计的生成分类器来检测图像中是否存在的异常模式。通过实验验证,本文提出的方法与大多数基准模型相比可以获得更好的缺陷检测性能。