摘要
目的:卵巢恶性肿瘤(ovariancancer,OV)是女性生殖器官常见的肿瘤之一,死亡率居各类妇科肿瘤首位,对妇女生命造成严重威胁。OV患者的病理分型、TNM分期及肿瘤大小等指标虽与预后存在相关性,但其准确性仍无法满足临床预后评估需求。利用深度学习算法降维多组学数据构建肿瘤患者预后评估模型是目前较具前景的研究方向。本研究基于癌症基因图谱(TheCancerGenomeAtlas,TCGA)中OV患者的多组学数据,通过机器学习和深度学习算法降维获得预后相关特征,构建OV分类模型,并通过比较分类结果的预后评估效能,以期建立一种可满足临床需求的OV预后评估模型。 方法:1.采用Excel对从TCGA下载的366例OV患者的RNA-seq、miRNA-seq、DNA甲基化和对应的临床信息数据进行数据清洗,包括删除正常样本、删除NA值的特征、筛选同时具有上述四种数据信息的患者。 2.对上述RNA-seq、miRNA-seq、DNA甲基化数据进行[0,1]最大最小值归一化处理,并将其按照患者ID整合至一个矩阵中。 3.分别采用机器学习线性降维模型主成分分析(PrincipalComponentAnalysis,PCA)、机器学习流线性降维模型等距特征映射(IsometricMapping,Isomap)及深度学习中的变分自编码器(VariationalAuto-Encoder,VAE)模型对归一化的数据矩阵进行数据降维和特征提取,并通过Cox风险回归分析(Coxproportionalhazardmodel,Cox-ph)、聚类分析和生存分析评估不同模型对OV预后的预测准确性。 4.进一步采用GEO(GeneExpressionOmnibus)数据库的OV患者组学数据,包括RNA-seq、miRNA-seq、DNA甲基化的归一化数据矩阵作为验证集,分别也通过数据降维和特征提取后的Cox-ph、聚类分析和生存分析等方法对上述预测模型进行验证。 结果:1.清洗后共获得366例OV患者的组学数据,其中mRNA-seq包含16511个特征表达值,miRNA-seq包含1881个特征表达值,甲基化位点包含24858个特征表达值。 2.归一化处理数据后,RNA-seq、miRNA-seq、DNA甲基化的特征值范围为[0,1]。 3.采用PCA模型将TCGA的OV患者分成高风险组与低风险组两个亚群,但亚群之间无显著生存差异(P=0.0593),且C-index值仅为0.53。 4.根据机器学习流线性降维模型Isomap将TCGA的OV患者分成高风险组与低风险组两个亚群,但亚群之间无显著生存差异(P=0.5785),且C-index值仅为0.50。 5.深度学习VAE模型将TCGA的OV患者分成高风险组与低风险组两个亚群,高低风险亚群之间存在明显的生存差异(P=0.0389),且C-index值为0.76。 6.以GEO数据库GSE18520队列作为验证集,采用VAE模型对患者预后进行评估,发现不同亚群之间存在明显的生存差异(P=0.0027),且C-index值为0.74,验证了VAE模型对OV患者预后的准确性。 结论:深度学习VAE模型预测OV患者的预后效能优于机器学习模型PCA与ISOMAP,可用于OV患者预后的评估。