首页|基于统计学习方法的癌症潜在标志物研究

基于统计学习方法的癌症潜在标志物研究

陈思敏

基于统计学习方法的癌症潜在标志物研究

陈思敏1
扫码查看

作者信息

  • 1. 吉林大学
  • 折叠

摘要

结肠癌是一种非常常见的危害人类身心健康的恶性肿瘤, 在我国发病率及致死率更是居高不下, 导致了许多人的死亡. 结肠癌的潜在生物标志物的挖掘对于推进结肠癌的确诊及治疗有十分重要的意义. 我们利用 GEO 数据库下载GSE74602; GSE9348; GSE10950; GSE25070 这四个数据集, 利用统计学习方法,对其基因进行筛选, 并进行有关潜在生物标志物的认定. 我们进行数据清洗然后进行去批次效应, 将其整合成一个数据集. 利用limma包进行差异基因表达分析, 分析在癌症组和正常组之间的差异表达的基因,一共得到129个上调基因, 和196个下调基因共325个差异表达基因. 之后利用GO和KEGG数据库, 进行功能富集分析, 观察这325个差异表达的基因富集到哪些功能条目. 基于 STRING 数据库进行 PPI 蛋白互作网络分析, 得到 MYC, TOP2A, FOXM1, AURKB等是连接度较高的基因. 利用三种不同算法, 对325个基因进行更进一步的筛选. LASSO算法的得到FOXQ1 , ABI3BP, CDCA5, CELSR3等9个基因, Boruta算法得到151个核心基因, XGBoost算法得到11个核心基因, 我们对这几种方法得到的基因取交集, 得到FOXQ1 , PPAP2A 等6个交集基因. 对得到的6个核心基因, 进行ROC分析, 发现6个基因的AUC均在0.9以上, 认定其为潜在的生物标志物. 基因 PPAP2A 生存分析结果显著, 这证明其可能与患者的预后情况密切相关. 6 个基因的免疫浸润结果表明 B cells naive 在正常结肠组织中的浸润比例较高, 在结肠癌肿瘤组织中浸润比例较低, Mast cells activitied在正常结肠组织中的浸润比例较低, 在结肠癌肿瘤组织中浸润比例较高.利用 CellMiner 数据库找到与基因相关的药物, 再对能搜索到蛋白质分子结构的基因与相关药物进行分子对接, FOXQ1 基因, S100A11 基因和 SCARA5 与Ribavirin, Masoprocol, Mitomycin的结合能均低于-5 kcal/mol, 可能对癌症的治疗发挥作用.

关键词

结肠癌/生物标志物/基因表达/免疫浸润/数据清洗

引用本文复制引用

授予学位

硕士

学科专业

应用统计

导师

孙建国

学位年度

2024

学位授予单位

吉林大学

语种

中文

中图分类号

R73
段落导航相关论文