首页|基于TCGA数据库构建乳腺癌衰老相关基因预后风险模型

基于TCGA数据库构建乳腺癌衰老相关基因预后风险模型

蒋帅

基于TCGA数据库构建乳腺癌衰老相关基因预后风险模型

蒋帅1
扫码查看

作者信息

  • 1. 赣南医学院
  • 折叠

摘要

目的: 本研究基于TCGA数据库构建乳腺癌衰老相关基因预后风险模型,并联合临床病理因素,开发一个便于临床使用的列线图。为临床更好地识别乳腺癌患者中的高危人群和评估患者预后提供新的思路。 方法: 从癌症基因组图谱(TCGA)官方网站下载TCGA-BRCA队列的mRNA数据和相对应的临床信息,利用Perl语言将下载好的数据整合成一个基因表达矩阵和一个临床信息矩阵。利用“limma”R包和“survival”R包进行基因差异表达分析和单因素Cox回归分析,鉴定与生存密切相关的、差异表达的衰老基因。随后,采用LassoCox回归分析对上述基因进行进一步筛选,并以此构建与衰老相关的预后风险模型,通过得到的Lambda.min值和风险评分公式计算出每一个患者的风险评分。并根据风险评分的中位值将患者划分为高、低两个风险类别组,接着利用Kaplan-Meier生存分析比较二者之间的生存差异,利用时间依赖的受试者特征曲线(ROC曲线)来评估其对个体3年、5年、7年总生存期(OS)的预测能力。通过GSEA富集分析鉴定高、低风险组中的差异表达的基因显著富集的功能和通路。再接着,利用单因素Cox回归、多因素Cox回归方法来识别乳腺癌中的独立预后影响因素,并基于独立预后影响因素,利用“rms”R包进行列线图的开发,同时,通过校准曲线和C指数对列线图的预测效能进行评估。另外,我们还在不同的临床病理亚组中进行了分层分析。最后,在一个独立的外部数据集中对预后风险模型进行了验证。 结果: 从TCGA数据库下载了1100例肿瘤样本的mRNA数据和112例正常组织样本的mRNA数据,同时下载了1085例女性乳腺癌患者的临床信息。首先,通过基因差异表达分析,共识别162个差异表达基因(DEGs),其中表达上调基因50个,表达下调基因112个。同时,将收集整理好的衰老相关基因进行单因素了进一步验证。Cox回归分析,结果表明TP63、NRG1、TBP、APOC3等78个衰老相关基因(ARGs)与BC患者预后密切相关。随后,将DEGs和ARGs取交集后得到的12个与预后密切相关的、差异表达的衰老基因进行LassoCox回归分析。根据Lambda.min值,3个基因被剔除,最终筛选出9个关键基因(NRG1、S100B、ALDH3A1、APOD、MMP7、CXCL14、IGFBP6、MAP2K6、MMP1)参与预后风险模型的构建。利用风险评分公式计算出每个样本的风险评分,并根据风险评分中位值,将1031例乳腺癌患者划分为高风险组(515例)和低风险组(516例)。K-M生存分析显示,总生存率在高风险患者组中明显降低(p<0.001)。而分层分析结果表明,在各临床病理亚组中,低风险组患者OS较高风险组患者明显延长,差异具有统计学意义(p<0.05)。接着,单因素和多因素Cox回归分析表明,诊断年龄、病理分期、模型风险评分是乳腺癌的独立预后影响因素。并基于多因素回归分析结果,利用R语言开发了一个整合临床病理因素和模型风险评分的列线图。在对列线图的评估中,3年、5年、7年的校准曲线贴近对角线,计算的C指数为0.769。最后,在GSE20685数据集中对新建立的预后风险模型进行 结论: 1.K-M生存分析和ROC曲线证明基于9个衰老相关基因计算的风险评分能够有效识别乳腺癌患者中预后不良的高危人群; 2.联合衰老相关基因风险评分和临床病理因素开发了一个列线图,校准曲线和C指数评估表明,该列线图能够对患者3年、5年、7年生存期做出准确预测,并优于单独任何一个参与构建列线图的独立预后影响因素; 3.单因素Cox回归分析和多因素Cox回归分析表明,衰老相关基因风险评分是乳腺癌患者预后的独立影响因素; 4.分层分析表明,衰老相关多基因预后模型在病理分期Ⅰ-Ⅱ和Ⅲ-Ⅳ、年龄大于50岁、肿瘤长径>5cm和肿瘤长径≤5cm、出现淋巴结转移和未出现淋巴结转移、未出现远处肿瘤转移等不同临床病理亚组中均显示出良好的预后预测价值。 5.参与构建多基因模型的NRG1、S100B、APOD、MMP7、CXCL14、IGFBP6、MMP1基因在既往研究中被证明与乳腺癌肿瘤生长、侵袭、转移以及患者预后密切相关,可能成为未来治疗靶点。

关键词

乳腺癌/TCGA数据库/衰老相关基因/生物信息学

引用本文复制引用

授予学位

硕士

学科专业

外科学(乳腺外科)

导师

刘志勇

学位年度

2023

学位授予单位

赣南医学院

语种

中文

中图分类号

R73
段落导航相关论文