首页|基于基因的皮肤恶性黑色素瘤患者生存分析

基于基因的皮肤恶性黑色素瘤患者生存分析

王萌萌

基于基因的皮肤恶性黑色素瘤患者生存分析

王萌萌1
扫码查看

作者信息

  • 1. 云南财经大学
  • 折叠

摘要

目前,癌症已经成为人类第二大死亡原因,新增患癌人数日渐增长,并且表现出年轻化趋势。研究发现黑色素瘤患者中有58%与遗传有关,所以从基因层面进行分析,对于癌症的诊断和治疗都起到很大作用。近年来,国内外学者常用基因分析方法包括差异表达分析、特征提取、特征选择、生存分析以及GO富集分析等。本文基于TCGA数据库中的467个皮肤恶性黑色素瘤组织的基因表达数据和患者临床数据结合GTEx数据库中500个健康皮肤组织的基因表达数据进行相关分析。 1.差异基因表达分析 基于467个皮肤恶性黑色素瘤组织基因表达数据和500个健康皮肤组织的基因表达数据进行差异基因表达分析,使用方法为DESeq2。基因差异分析结果显示:差异倍数大于2且显著的基因有13507个,甚至差异表达在10倍以上的基因有2575个,其中包括1047个上调基因和1528个下调基因,说明皮肤恶性黑色素瘤组织和健康皮肤组织的基因表达差异非常大。 2.使用过滤式和封装式两步特征选择方法进行特征基因筛选。 (1)过滤式特征选择 首先使用过滤式特征选择方法进行基因初筛:第一步使用Spearman相关系数去除与皮肤恶性黑色素瘤无关的基因,在显著性检验Plt;0.1且Spearman相关系数大于0.4的条件下,保留13566个基因;由于第一步降维效果不明显,所以第二部使用mRMR算法,将阈值设置为500,即保留500个基因。 (2)封装式特征选择 本文使用随机森林递归特征消除法(RF-RFE)、基于袋装树递归特征消除法(Treebag-RFE)和基于随机森林模拟退火算法(RF-SA)三种封装式特征选择算法筛选特征基因,三种方法分别保留30个基因、57个基因和103个基因。 (3)分类能力评价 主要利用基于高斯核函数的非线性支持向量机的分类效果做对比,评价指标包括分类准确率、分类精度、召回率、F-measure和AUC,经过分类结果对比,RF-RFE筛选出的30个特征基因在基因数量最少且分类效果最好,最终决定保留这30个特征基因用于后续生存分析。 3.结合皮肤恶性黑色素瘤患者的临床数据,将30个特征基因作为协变量进行生存分析。 (1)Cox比例风险回归 对30个特征基因进行单因素Cox比例风险回归分析,在满足PH假定的条件下,显著性P值设置为0.1,得到9个与患者生存显著相关的基因,分别为CITED、AP1S2、USP11、SDC3、SNX10、EN2、EOMES、CHST11、FOXRED2。 (2)K-M生存分析 将Cox回归分析得到的9个与患者生存情况显著相关的基因进行K-M生存分析,画出KM生存曲线,最终得到基因高表达和低表达对患者生存情况存在显著影响的4个基因SNX10、AP1S2、EN2、USP11。 本文的研究目的旨在通过分析皮肤恶性黑色素瘤组织的基因表达情况,找到与皮肤恶性黑色素瘤相关的基因,皮肤恶性黑色素瘤的诊断;通过生存分析得到与患者生存显著相关的基因,用以皮肤恶性黑色素瘤患者的治疗和预后判断。

关键词

黑色素瘤/生存分析/差异基因表达/特征选择/支持向量机

引用本文复制引用

授予学位

硕士

学科专业

应用统计

导师

李兴绪

学位年度

2023

学位授予单位

云南财经大学

语种

中文

中图分类号

R73
段落导航相关论文