摘要
乳腺癌是一种常见的恶性肿瘤疾病,根据患者的病情发展情况将乳腺癌患者分为不同的风险组,对于提高患者的生存率至关重要。多组学数据是癌症患者生存预后预测的良好资源。然而,不同组学类型的特定数据特征以及多组学数据的不平衡性给多组学数据的有效整合带来了挑战。本研究基于TCGA数据库中乳腺癌的多组学数据,通过综合分析患者信息对乳腺癌患者的生存风险进行预测,并揭示关键的预后因素,以推动个性化精准治疗的发展。 本文设计了RegAE框架来整合乳腺癌多组学数据,将相似性网络作为正则项加入到自动编码器的损失函数中,捕获样本之间的相似信息,从而提取乳腺癌患者的潜在一致性特征。我们通过单因素Cox回归模型对多组学特征进一步筛选并通过K-medoids聚类方法将样本划分为和生存相关的不同风险亚组。我们进行了基准实验,结果表明本文提出的基于RegAE的多组学融合生存分型方法能够有效区分患者的高风险和低风险状态,获得了最佳的预后识别性能(C-index=0.78,p-value<0.05)。本文进一步探讨了不同类型和数量的组学数据对乳腺癌生存亚型的影响,研究结果表明,mRNA的贡献度最大,CNV数据对亚型鉴定的贡献度最小,并强调了多组学组合方式对于癌症生存预后研究的重要性。 然后,本文利用上述亚型标签和多组学数据构建机器学习预测模型,采用多种评价指标评价模型预测性能,结果表明SVM分类器在乳腺癌患者的亚型分组中实现了稳健的预测(AUC=0.93,Acc=0.92),测试集被分为两个有显著性差异的生存亚型(C-index=0.82,p-value<0.05)。最后,本文利用SHAP方法对机器学习模型进行解释,按照多组学特征的贡献度排名选择顶级特征作为乳腺癌的潜在治疗靶点。 最后,为了深入理解不同风险亚型之间的生物学过程,本文对鉴定的两种亚型之间的基因表达数据进行差异分析、富集分析以及免疫浸润分析,发现M2巨噬细胞(MacrophagesM2)和CD8+T细胞(TcellsCD8)的浸润程度在两个亚组中具有显著差异,这表明M2巨噬细胞可能会加重患者的生存风险,而CD8+T细胞的高水平浸润可能与较好的预后相关。 综上所述,本文构建了一个正则化的自动编码器框架来整合多组学数据,并在区分高危乳腺癌患者和预后良好的患者方面取得了较好的性能。此外,我们构建了SVM分类器来预测单个乳腺癌患者的生存亚型,这是发现乳腺癌潜在治疗靶点的有效途径。