首页|基于TCGA数据库高级别胶质瘤患者预后风险模型的构建及验证

基于TCGA数据库高级别胶质瘤患者预后风险模型的构建及验证

闫麒宇

基于TCGA数据库高级别胶质瘤患者预后风险模型的构建及验证

闫麒宇1
扫码查看

作者信息

  • 1. 吉林大学
  • 折叠

摘要

目的: 胶质瘤为中枢神经系统发病率最高的恶性肿瘤,根据病理分型可分为WHOⅠ-Ⅳ级,其中WHOⅢ级及Ⅳ级肿瘤为高级别胶质瘤,预后较差。本研究旨在利用生物信息学研究方法,通过分析癌症基因组图谱(thecancergenomeatlas,TCGA)和中国胶质瘤基因组图谱(Chinesegliomagenomeatlas,CGGA)中信使核糖核酸(messengerribonucleicacid,mRNA)在高级别胶质瘤的表达情况,并结合患者临床资料寻找影响高级别胶质瘤患者生存预后的独立危险因素,由此建立一个能够更加准确的估计高级别胶质瘤患者生存情况的预后模型。 方法: 从TCGA数据库与CGGA数据库获取胶质瘤患者的mRNA表达谱和临床数据,筛选符合纳入标准的胶质瘤样本进行进一步分析。其中将TCGA数据库中的高级别胶质瘤样本作为训练集,CGGA数据库中的高级别胶质瘤瘤样本作为验证集,将WHOⅢamp;Ⅳ级胶质瘤患者基因表达量与WHOⅡ级患者基因表达量对比,以P<0.05和|Log2FC|≥1作为差异mRNA的筛选标准,筛选差异表达基因。差异基因的基因本体论(GO)分析与京都基因与基因组百科全书(KEGG)分析通过使用DAVID工具进行处理。Lasso回归分析用于筛选最佳预后候选基因,并计算每例样本的风险评分,由风险评分的中位值将样本分为高风险组(风险评分大于中位值)和低风险组(风险评分小于中位值)。单因素COX回归P<0.05的变量纳入多因素COX回归分析,以P<0.05的变量确定为预后相关变量,绘制Kaplan-Meier生存曲线分析高低风险组预后差异,利用R软件构建基于风险评分的列线图,确定C指数。绘制校准曲线评估实际生存和预测生存的一致性。 结果: 经过筛选,TCGA数据库中高级别胶质瘤样本390份作为训练集,CGGA数据库中高级别胶质瘤瘤样本330份作为验证集。差异分析筛选出差异表达基因611个,其中上调的基因520个,下调的基因91个。经过Lasso回归分析后将6个基因(ABCG8、C4orf6、DMBX1、FAM90A7、MMP1、PI3)纳入了风险评估模型,KM(Kaplan-Meier)分析显示高低风险组生存概率具有显著统计学意义(P<0.01)。COX回归分析纳入预后相关变量为风险评分、年龄和异柠檬酸脱氢酶(IDH)状态,构建模型以列线图表达,训练集C指数为0.838。构建模型经过CGGA验证组验证,C指数为0.659,模型较为精确。校准曲线绘制预测1年、2年、3年和5年生存率非常接近对角线,表明预测情况与实际情况较为符合,模型区分度较好。 结论: 本研究通过生物信息学及统计学方法,结合临床资料以及基因组数据,建立了基于6个基因(ABCG8、C4orf6、DMBX1、FAM90A7、MMP1、PI3)得出的风险评分、年龄和IDH状态的预后模型。经过验证,该模型具有很好的预测能力,可作为预测高级别胶质瘤患者生存的预后模型。

关键词

高级别胶质瘤/预后模型/mRNA/列线图

引用本文复制引用

授予学位

硕士

学科专业

临床医学

导师

李蕴潜

学位年度

2023

学位授予单位

吉林大学

语种

中文

中图分类号

R73
段落导航相关论文