摘要
糖尿病视网膜病变,简称糖网,是发生在眼底图像上的一种并发症,病情早期没有明显症状,随着病情的发展,患者的视力逐渐下降,严重时更会导致患者完全丧失视力,将对患者身体健康造成不可逆的影响。因此,对病人尽早进行糖尿病视网膜病变诊断和排查,可以帮助患者及时确诊并早日就医,这对于降低由于糖尿病视网膜病变带来的视力减弱甚至失明具有重大意义。近几年蓬勃发展的深度学习技术,为糖尿病视网膜病变病灶的分割提供了很好的工具。然而深度学习中的下游任务过度依赖于在大规模有标签数据集上的预训练,这需要极高的人工标注成本。同时,目前针对糖尿病视网膜病变眼底图像的处理大多数仅局限于图像本身的结构信息,忽略了病灶之间的相关性信息。因此,本文深入分析并研究了糖尿病视网膜病灶分割的过程,基于自监督学习与病灶之间的文本相关性,对糖尿病视网膜病变病灶分割方法进行了探索。主要研究工作如下: 目前,基于深度学习的眼底图像分割方法,都要用到在自然图像数据集ImageNet-1K上预训练的主干网络如ResNet-50,这需要大量的人工标注数据。目前,利用手工设计的代理任务或对比学习在无标签数据上进行预训练的自监督学习方法,摆脱了对数据集进行标注的依赖,但却无法同时兼顾效果与效率。因此,本文针对眼底图像病灶分割网络中的主干网络设计了一种更加高效的无监督训练方法MEJigClu。MEJigClu将每一张训练图像分割成四个具有一定重叠度的图像块,然后将这些图像块随机打乱后重组成新的训练数据,并使用聚类分支和分类分支来促使网络学习得到具有区分性的特征。与目前的工作相比较,MEJigClu以较小的显存,在ImageNet和COCO数据集、IDRiD眼底图像数据集上的下游任务都取得了最好的效果。 眼底图像分割除了需要主干网络,还需要针对医学图像分割的特点设计专门的分割网络。然而现在的糖网病灶分割方法研究主要集中在保持较小的细节信息损失的同时,从图像中提取尽可能多的语义信息,或者使用自注意力机制来加强特征图,从而帮助提取语义信息。这些方法都没有显示地利用不同病灶之间的潜在关联信息。因此,本文提出了一种显式利用病灶文本信息进行糖网病灶分割的方法。本文将不同病灶对应的文本信息输入CLIP模型,从而得到对应的病灶文本特征。利用这些包含病灶间关系的病灶文本特征与分割网络得到的病灶图像特征计算余弦距离,从而使得分割网络得到的不同像素的特征能够在其特征空间上更加紧凑,并提升眼底图像的病灶分割效果。本文在眼底图像数据集IDRiD上验证了方法的有效性。