摘要
背景:卵巢癌是一种严重的妇科恶性肿瘤,它对女性健康构成巨大威胁。在全球范围内,卵巢癌是女性中第八常见的癌症。2020年,全球有超过313,000例新的卵巢癌病例。近年来,卵巢癌的全球趋势呈现出逐渐上升的态势。这主要是由于生活方式的改变、环境污染、遗传因素以及晚婚晚育等多种风险因素所致。中国的卵巢癌发病率在过去几十年里呈现出逐年上升的趋势,而且年轻女性卵巢癌患者数量不断增加。因此,找到卵巢癌发生发展的致癌基因十分迫切。传统湿实验的方法周期长,成本高,同时由于卵巢癌的个体间异质性强,实验范围广度较其他癌症更高。依靠湿实验进行差异基因筛选无法满足临床研究需求。近年来单细胞转录组学技术的快速发展允许从单细胞的分辨率下进行疾病异质性挖掘。与此同时,对应的单细胞转录组生物信息学分析算法也已经逐渐成熟,但是传统基于基因-疾病关联分析的生物信息学方法无法排除混杂因素干扰,找到的基因假阳性率高。并且基因很少单独起作用,几乎所有基因都需要在生物网络中实现特定功能,只研究单个基因的关联性,很可能丢失关键信息。高维加权基因共表达网络分析(hdWGCNA)针对单细胞数据高维稀疏的特点,可以揭示基因之间的共同网络调控模式和功能通路,发掘疾病关联的枢纽基因(hubgene)。靶向最大似然估计(TargetedMaximumLikelihoodEstimation,TMLE)是一种基于最大似然估计的双重稳健的因果关联分析方法,在处理数据中的异常值和稀疏性方面比非替代估计量更加稳健,可针对单细胞测序的数据特点,从疾病关联的枢纽基因中筛选出关键因果基因。 目的:本研究借助单细胞RNA测序数据能够揭示疾病细胞异质性的独特优势,基于高维共表达网络方法挖掘卵巢癌不同临床分期的关键枢纽基因,进而通过TMLE筛选出关键的因果基因,为实验研究验证卵巢癌不同分期的关键差异基因,探索卵巢癌致病机制以及研发靶向治疗药物等提供重要参考。 方法:本研究对来自3位卵巢癌患者的癌组织取样,通过10XGenomics进行单细胞RNA测序,并且收集12例来源于GEO数据库(GSE184880)的中国卵巢癌患者的单细胞测序数据,共获得了94365个细胞,36601种基因的表达量。以细胞为样本单位构建矩阵,以基因为变量,将来源于癌组织的细胞定义为“病例”组、来源于非恶性卵巢组织的细胞定义为“对照”组,由此构建94365行、36601列的基因表达量矩阵。基于上述大数据矩阵,首先进行常规的生物信息学分析,对单细胞RNA测序数据进行整合,预处理去除批次效应后进行细胞聚类与细胞注释,借助富集分析定位发生卵巢癌的关键基因模块,使用hdWCGNA方法分析对细胞群内来源于癌组织与非恶性卵巢组织的细胞之间的差异枢纽基因模块。然后进一步使用TMLE模型筛选对于卵巢癌的发生具有因果效应的枢纽基因。对于潜在因果枢纽基因,使用富集分析综合数据库分析寻找可能影响卵巢癌发生的信号通路,探索致病机制。 结果: 1.使用生物信息学方法对15例来源于癌组织的单细胞数据进行分析,共获得了27个细胞群,对上皮细胞群进行高维加权基因共表达网络分析,获得17个差异基因模块,发现了蛋白质去脱棕榈酰化、RNA甲基化等关键信号通路,每个模块筛选了前30的关键枢纽基因。 2.使用靶向最大似然估计模型筛选对卵巢癌的发生具有因果效应的基因。其中关键的共表达模块M1中,发现了25个从良性肿瘤过渡到高级浆液型卵巢癌临床Ⅰ期的潜在因果效应枢纽基因,18个Ⅰ期到Ⅱ期以及24个Ⅱ期到Ⅲ期的潜在因果枢纽基因。在以上三个时期中,共有的潜在因果基因有14个,其中7个为明确的卵巢癌标记基因,因果效应最大的基因为CST3。 3.对所有17个差异基因模块中的潜在因果枢纽基因进行收集和富集分析,从良性肿瘤到临床Ⅰ期的潜在因果基因富集到了真核生物翻译延长,细胞对压力的应答,神经系统发育,轴突引导,SLITs和ROBOs表达调控,真核翻译起始,细胞对饥饿的应答等信号通路,Ⅰ期到Ⅱ期潜在因果基因富集到了细胞对化学压力的反应,细胞外基质组织,凋亡信号通路的调节,TGF-β信号通路,细胞对饥饿的反应以及免疫系统中的细胞因子信号等信号通路。Ⅱ期到Ⅲ期潜在因果基因富集到了SUMO化目标蛋白,负向调节DNA结合的转录因子的活性,癌症中的途径,核受体通路,上皮细胞管的形态发生,蛋白质丝氨酸/苏氨酸激酶活性的调节。 结论: 1.常规的生物信息学基因表达-疾病关联分析方法只能得到单个基因与暴露间的关联关系,而且通常候选基因数量众多,在需要考虑疾病异质性的前提下,不利于后续实验验证。本研究在常规分析基础上,利用高维加权共表达网络获得关键的枢纽基因,进而使用TMLE筛选不同分期的潜在因果枢纽基因,有效缩小了差异基因的范围,将提高实验效率,降低试验成本,为单细胞组学中的因果基因分析提供方法学借鉴和算法支撑。 2.本研究通过分析差异基因模块不同分期共有的潜在因果枢纽基因,发现了两个可能对卵巢癌的发生发展具有重要意义的基因ATD5D与TNFSF10,为进一步探索卵巢癌发生发展机制以及寻找新的药物靶点提供依据。 3.本研究发现M1模块中的25个良性肿瘤到高级浆液型卵巢癌临床Ⅰ期过渡的潜在因果效应枢纽基因中,有10个基因已有文献证明与癌症相关,这些基因可能通过真核生物翻译延长等导致肿瘤的恶化。Ⅰ期到Ⅱ期基因中,有6个基因已有研究证实与癌症相关,有可能通过凋亡信号调节等导致进一步恶化,Ⅱ期到Ⅲ期潜在因果基因中,有8个基因已有实验证明与卵巢癌有关,可能通过氧化磷酸化反应等导致肿瘤向最后转化。本研究对探索卵巢癌发生发展过程的机制以及精准诊疗有重要参考意义。