目的: 癌症是一种具有不同发病机制与临床特征的复杂的异质性疾病,对癌症的亚型进行识别,有利于详细了解癌症的发病机制,提供个性化治疗。传统模型在处理组学数据常会遇到维度高、样本少、噪声高的问题。深度学习模型能够较好地处理高维数据及数据间非线性关系,近年来在多组学数据的癌症分型中得到广泛应用。但在现阶段提出的深度学习模型中,对于组学数据的选择、模型框架的构建等问题的探讨较少,难以为同类数据在模型构建时提供思路与方向。本研究以TCGA-BRCA乳腺癌患者队列数据为例,基于不同组学数据、隐藏层及代表层节点数构建的深度学习模型进行癌症分型任务,探索不同模型所获癌症分型对患者预后预测的能力及稳健性,为后续研究构建预测模型提供参考依据。基于所获得癌症亚型,进一步探索癌症发生发展机制,以及临床治疗效果,为了解疾病、指导临床提供帮助。 方法: 本次研究数据来自TCGA-BRCA乳腺癌患者队列。使用不同组学数据、隐藏层及代表层节点数的自编码器(AE)、联合多模态策略自编码器(mtmdAE)、变分自编码器(VAE)构建模型,使用单因素比例风险模型筛选与生存相关的代表层特征,使用聚类分析获取癌症分型结果。 基于所获癌症亚型构建支持向量机,进行十折交叉验证,对模型稳健性进行验证。使用log-rank检验P值、一致性指数和布里尔分数对不同癌症亚型患者的生存相关预后进行评价。 基于上述所获癌症亚型,使用GEO数据库中乳腺癌患者的数据进行外部验证。建立比例风险模型计算风险比,确定不同癌症亚型的风险水平。进行差异分析,识别不同癌症亚型的差异表达基因、差异表达 miRNA 和差异甲基化基因。利用获得的差异表达基因进行富集分析。进行基于肿瘤免疫功能障碍和排除算法的免疫治疗分析,并进行肿瘤免疫功能障碍预后得分比较不同癌症亚型的肿瘤细胞免疫逃逸情况。 结果: 模型预测预后的能力方面,在TCGA-BRCA数据中,基于mRNA表达单组学数据构建的模型,VAE总体优于AE;在基于miRNA表达单组学数据构建的模型中,AE明显优于VAE;在基于DNA甲基化单组学数据构建的模型中AE与VAE表现相差不大;在基于mRNA表达与miRNA表达双组学数据构建的模型中,VAE总体表现最优;在基于mRNA表达与DNA甲基化双组学数据构建的模型中,mtmdAE在隐藏层层数为一层时log-rank检验P值与一致性指数表现很差;在基于 miRNA 表达与 DNA 甲基化双组学数据构建的模型中,mtmdAE log-rank检验P值与一致性指数表现最优;在基于三组学数据构建的模型中,mtmdAE在隐藏层层数为一层时log-rank检验P值与一致性指数表现最差,但随隐藏层层数增加表现变好。双组学数据模型预测预后的能力未必高于单组学数据,不同的深度学习模型对特定的组学数据效果较好。基于三组学数据构建的模型中,AE与VAE的表现均较好。 模型稳健性的内部验证方面,在TCGA-BRCA数据中,在基于mRNA表达单组学数据和DNA甲基化单组学数据的模型中,VAE表现优于AE;在基于miRNA表达单组学数据中, AE 表现优于 VAE;在基于 mRNA 表达和 miRNA 表达的双组学数据构建的模型中,VAE log-rank检验P值总体表现最佳,而mtmdAE在log-rank检验P值与一致性指数两项指标上表现最差;在基于mRNA表达和DNA甲基化的双组学数据构建的模型中,AE在log-rank检验P值与一致性指数两项指标上总体表现最佳,而 VAE 的布里尔分数表现最差;在基于 miRNA表达和DNA甲基化的双组学数据构建的模型中,三种深度学习模型log-rank检验P值在各隐藏层层数为一层时表现较差,布里尔分数AE总体表现最优,mtmdAE最差;基于miRNA表达和DNA甲基化的双组学数据的模型表现相差不大;在基于三组学数据的模型中,AE在三种指标上均表现较优。基于miRNA表达单组学数据、mRNA表达和DNA甲基化双组学数据以及三组学数据构建的 AE 普遍优于其余组学数据。基于 DNA 甲基化单组学数据构建的AE表现较差;基于miRNA表达和DNA甲基化双组学数据构建的mtmdAE在一致性指数表现较好,而布里尔分数表现较差;基于miRNA表达单组学数据构建的VAE表现普遍差于其余组学数据。 癌症亚型功能分析方面,在TCGA-BRCA数据中,由mRNA表达与DNA甲基化双组学数据构建的 VAE 获得风险相关的两组癌症亚型,高风险组 HR 为 8.41,其 95%CI 为3.31~21.38,P 值小于 0.0001;经临床特征调整后 HR 为 9.61,其 95%CI 为 3.27~28.28,P 值小于0.0001。通过两个GEO乳腺癌队列的外部验证,在GSE22219中log-rank检验P值为0.0265,高风险组HR为1.74,其95%CI为1.06~2.86,一致性指数为0.646,布里尔分数为0.154;在 GSE24450 中 log-rank 检验 P 值为 0.0137,高风险组 HR 为 2.49,其 95%CI 为1.18~5.28,一致性指数为 0.705,布里尔分数为 0.118。差异分析获得前十个差异基因为:LOC84740、LOC115110、CIRBP、LTC4S、MST1、ACBD4、UBXN11、MYO15B、ATG16L2、CLDN5;前十个差异表达miRNA为:hsa-mir-101-2、hsa-mir-29c、hsa-mir-577、hsa-mir-519a-1、hsa-mir-455、hsa-mir-616、hsa-mir-3605、hsa-mir-885、hsa-mir-210、hsa-mir-301b;前十个差异甲基化基因为:CORIN、ZNF101、ELAC1、ZNF655、GCNT1、VHL、MIR1304、PIGH、NOL3、KLHL12。经GO富集分析,共发现249条具有统计学意义的功能。经KEGG富集分析,发现23条具有统计学意义的通路。高风险癌症亚型与低风险间TIDE差异P值小于0.01,且高风险组TIDE高于低风险组。 结论: 本次研究通过基于不同组学数据、隐藏层及代表层节点数构建的深度学习模型进行癌症分型任务,在TCGA-BRCA数据中,AE与VAE的性能均较优于mtmdAE。研究探讨比较了不同模型预测癌症患者生存相关预后的准确性和稳健性,为后续研究利用相关方法构建预测模型提供参考。基于所获癌症分型进行了一系列功能分析,为进一步研究癌症发生发展机制、发现潜在的预后相关生物标志物提供了帮助。