首页|基于多组学数据的癌症驱动基因的预测方法研究

基于多组学数据的癌症驱动基因的预测方法研究

肖楠楠

基于多组学数据的癌症驱动基因的预测方法研究

肖楠楠1
扫码查看

作者信息

  • 1. 山东大学
  • 折叠

摘要

高通量测序技术的飞速发展推动基因多组学数据不断扩充,促进了对多组学数据中蕴含的生物意义的诠释,也为研究肿瘤这一类复杂疾病提供了数据支持。癌症作为人类健康最具威胁性之一的疾病,关于其发病机制已从多方面进行挖掘研究。相关研究表明,癌症的致病因素主要是基因发生变异,并基于此衍生了驱动基因和乘客基因的观点。研究者们将对促使细胞具有自主增殖的变异基因称为驱动基因,将对癌症发生几乎不产生任何影响的基因称为乘客基因,由此从大量无关紧要的乘客基因中挖掘具有致癌作用的癌症驱动基因成为当前的热点问题。为应对这个挑战性的问题,众多预测算法被开发来识别驱动基因。识别算法较为常见的两类,一类是基于基因在样本中的突变频率进行预测,一类是结合蛋白质相互作用网络来提高算法的精确度。 为了更好的提升驱动基因的预测效果,本文提出了一种基于优先考虑成对突变基因的新方法(PairDriver)。该算法通过有机结合体细胞突变数据、蛋白质-蛋白质相互作用网络和基因差异表达数据来实现驱动基因的有效识别。本文的主要研究工作和创新点如下:(1)综合考虑不同样本下相同基因和同一样本中不同基因发生突变对癌症产生的贡献作用,改良了以往算法的基因突变数据的处理方式。(2)考虑到一个突变基因的表达会对其他突变基因的表达产生影响,本文利用癌症样本和正常样本的基因表达差异性构建差异表达网络。(3)本文发现在蛋白质-蛋白质互作网络(PPI网络)中,驱动基因之间有更强的连接倾向,为此对PPI网络和差异表达网络中的基因进行成对考虑,并设计一个影响分数来量化成对基因的影响程度,最后将其拆分为单个基因的影响分数,并根据这个分数对单个突变基因进行排序。 将本文算法应用在TCGA数据库中的10个常见癌症类型数据集中,结果表明,在识别驱动基因方面,本文算法与其他经典预测算法相比较都有很大的提升。PairDriver方法有望为癌症的诊断和治疗提供新的理论指导和技术支撑。

关键词

多组学数据/癌症/驱动基因/突变数据/差异表达分析

引用本文复制引用

授予学位

硕士

学科专业

运筹学与控制论

导师

柳军涛

学位年度

2023

学位授予单位

山东大学

语种

中文

中图分类号

R73
段落导航相关论文