摘要
深度学习模型在高层语义信息表达方面表现出色。然而,它的成功很大程度上取决于训练数据的数量和质量。医学图像数据的标注比其它数据的标注更为耗时耗力,会产生巨大的经济和人力成本。因此,高质量的医学图像数据集往往标注较少,而大量未标注的冗余数据无法用于有监督的训练。自监督学习能够通过设计合适的前置任务,驱动模型学习无标注数据各部分之间的关系,提升模型在下游任务的泛化性和表征能力。本文围绕深度学习模型和自监督学习在3D医学图像分割问题上展开研究,主要研究内容和贡献如下: (1)提出了一种3D医学图像的自监督预训练方法。通过在3D医学图像数据上设计合适的自监督学习任务,驱动模型学习得到具有一定泛化性和表征能力的预训练模型。本文所提出的自监督预训练方法其前置任务主要包括三部分组成:掩码块重构学习(MaskedPatchReconstruction,MPR)、掩码块自蒸馏学习(MaskedPatchSelf-Distillation,MPD)和全局标志位自蒸馏学习(GlobalTokenSelf-Distillation,GTD)。将三个前置任务的设计思想进行融合得到模型的整体结构,使其更有助于3D医学图像数据的分割任务,并在下游任务中表现出更好的泛化性能。 (2)将视觉Transformer作为模型的骨干网络,增强自监督学习的表征能力。本文通过使用多种医学图像数据(头部、颈部、肺部和臀部)预训练视觉Transformer模型,充分展现视觉Transformer的表征学习能力,提升模型在下游任务中的泛化性能。在所提出的自监督学习方法下预训练模型,再将其应用于13种类别的器官组织的分割任务中,经过带标签数据的微调,使得模型的分割效果得到显著提升。 本文通过多项的消融实验和对比实验,使用Dice相似度系数(DSC)作为评估指标。首先,设置消融实验探究不同掩码块大小、不同掩码率和不同的前置任务组合方法对本文所提出的自监督预训练方法性能的影响。其次,设置对比实验验证本文所提出的方法与基准分割模型和基准自监督预训练模型的性能对比。本文的预训练模型在3D医学图像分割任务表现最优。另外,在使用更小规模的微调数据量进行有监督训练,取得比基准自监督预训练模型要好的泛化性和表征能力,在下游分割任务中取得更好的效果。这证明了算法的有效性。