基于对比学习和先验知识传播的深度半监督学习算法研究

朱慧春¹

扫码查看

作者信息

1. 东华大学
折叠

摘要

近年来，深度学习尤其是深度监督学习发展迅速，但也深受数据挑战的制约。所谓数据挑战，就是随着大数据时代的来临，获取大量数据很容易，获取对应的数据标签却耗时耗力。因此，联合利用标记和未标记样本训练深度神经网络的深度半监督学习成为一个热点研究课题。解决数据挑战问题的关键就在于能否充分利用未标记数据。近年来，自监督对比学习作为一种利用数据本身信息的技术，可以有效避免算法对大量标签的依赖。生物信息领域同样存在数据挑战问题，其主要在于如何将部分已知的监督信息转换并整合到现有无监督学习算法中。以单细胞RNA测序（single-cellRNAsequencing,scRNA-seq）数据为例，部分生物学先验知识比较容易获得，但现有scRNA-seq数据分析算法却很少利用获得的先验知识。尽管已有部分半监督聚类将先验知识整合到聚类过程中，但所用的先验知识仍是局部的。半监督学习算法大多借助一致性损失或数据重构利用未标记数据，这对未标记信息的利用程度较低。为了解决现有深度半监督算法对未标记数据的利用不足并且可用先验知识很少等问题，本文提出了基于对比学习和部分标签传播的深度半监督分类算法和基于自监督和约束传播深度半监督聚类算法。针对深度半监督分类算法，本文提出了一种基于对比学习和部分标签传播的深度半监督分类算法CL_PLP。CL_PLP由两个模块组成，包括特征提取模块和部分标签传播模块。特征提取模块在网络结构中添加了投影层，并构造了对称对比损失，通过结合强弱增强来扩展数据集。部分标签传播模块则根据伪标签的质量来中断标签传播，生成高质量伪标签。本文在三个标准数据集上与当前先进的算法进行比较，实验结果表明，该算法提高了未标记数据利用程度，得到更好的分类结果。本文还将该算法应用于COVID19-Xray数据集，其仍显示出良好的性能。此外，本文进行了消融实验，分析了算法的不同模块对性能的影响。最后提出一种整合该算法与归纳学习算法的策略，并通过实验验证了该策略可以进一步提高性能并获得额外的高质量伪标签。针对scRNA-seq深度半监督聚类，本文提出了一种新的基于自监督学习和成对约束传播的深度半监督聚类算法scDSemiC。scDSemiC首先通过对比学习和Pretext任务预训练一个自动编码器。随后利用预训练模型提取数据特征，构造邻接矩阵和约束矩阵来进行成对约束传播。最后利用传播的高质量约束和原始约束进行半监督约束聚类。本文通过在七个真实数据集上与五个竞争算法进行比较，验证了算法的有效性，并且对参数的敏感性以及模块不同组合模式的有效性进行了分析。

关键词

深度半监督学习/先验知识传播/对比学习/成对约束

引用本文复制引用

授予学位

硕士

学科专业

电子信息

导师

甘杨兰

学位年度

2022

学位授予单位

东华大学

语种

中文

中图分类号

段落导航