摘要
第一部分:基于TCGA数据库肝细胞癌相关基因的筛选及生物信息学分析 目的:通过生物信息学方法,利用R软件从TCGA数据库筛选出肝细胞癌差异性表达的基因,探索肝细胞癌的发病机制。 方法:本研究从癌症基因组图谱(The Cancer Genome Atlas, TCGA)数据库下载的423个肝细胞癌样本(373个肿瘤样本和50个正常组织样本)的mRNA原始表达数据进行了综合分析,利用R软件和edgeR包筛选出差异表达基因(表达倍数>2倍,P<0.05),选取表达差异显著上调与下调的前100个基因进行基因本体论(Gene Ontology,GO)富集分析、京都基因和基因组百科全书(Kyoto Encyclopedia of Genes and Genomes, KEGG)信号通路富集分析和蛋白互作网络(protein-protein interaction network, PPI network)分析。 结果:总共筛选出15508个肝细胞癌中表达显著的基因,其中7010个上调基因,8498个下调基因。GO富集分析总共得到20个条目(P值<0.01,FDR<0.01),结果显示这些基因生物途径主要富集在姐妹染色单体内聚、细胞分裂、有丝分裂核分裂、有丝分裂细胞周期的G2/M转变、染色体分离、有丝分裂细胞周期的G1/S转变、后期促进复杂依赖分解代谢过程、有丝分裂赤道板聚集、蛋白质定位到着丝粒、有丝分裂姐妹染色单体分离;细胞定位主要富集在染色体着丝粒区域、中体、浓缩染色体着丝粒、浓缩染色体外着丝粒、着丝粒、纺锤体微管、纺锤中央区、纺锤体、浓缩染色体外着丝粒、核分裂周期蛋白80复合体。KEGG信号通路富集分析显示这些基因主要涉及到9个通路(P<0.01),富集于细胞周期、卵母细胞减数分裂、孕激素介导卵母细胞成熟、人T细胞白血病1型病毒感染、p53信号通路、微小RNA在癌症中的作用等信号通路上。蛋白互作网络分析得出位于网络的中心节点蛋白有:细胞周期蛋白依赖性激酶1(CDK1)、细胞周期蛋白B1(CCNB1)、细胞周期蛋白B2(CCNB2)、细胞分裂周期蛋白20(CDC20)、保罗样激酶1(PLK1)、BUB1有丝分裂检查点丝氨酸/苏氨酸激酶(BUB1)等。 结论:利用生物信息学对肝细胞癌相关基因分析,发现肝细胞癌的发生可能与有丝分裂的异常进程相关。其中CDK1、CCNB1、CCNB2、CDC20、PLK1、BUB1等基因在肝细胞癌的发生和进展中可能起着重要的作用。 第二部分:CDK1mRNA的表达与肝细胞癌临床特征及预后研究 目的:探讨CDK1mRNA在肝细胞癌患者组织中的表达情况与临床特征及预后的相关性,希望为肝细胞癌靶向治疗提供新的靶点。 方法:基于癌症基因组图谱(TCGA)肝和肝细胞癌(LIHC)队列的数据进行回顾性研究。根据约登指数确定总体生存率的最优截断值将肝细胞癌患者分为CDK1mRNA高表达组和CDK1mRNA低表达组。收集肝细胞癌组织的基因表达及相关临床数据,对样本中的CDK1mRNA的表达数据及其对应的临床信息进行分析。计量资料组间比较采用t检验;计数资料组间比较采用?2检验;生存分析采用Kaplan-Meier生存分析检验;生存资料的单因素及多因素分析采用Cox比例风险模型。P<0.05具有统计学意义。 结果:1.肝细胞癌组织(N=371)中CDK1mRNA表达量明显高于正常肝组织(N=50)。与配对的邻近正常组织(N=50)相比肝细胞癌组织(N=50)中的CDK1表达量明显升高。 2.CDK1mRNA表达水平与患者年龄、组织学分级、临床分期、复发状态、生存现状差异显著相关(P<0.05),而与患者性别、肝脏纤维化Ishak评分、肝功能Child-Pugh分级、残留肿瘤无明显相关(P>0.05) 3.生存资料单因素分析显示,肝细胞癌患者的总生存率与患者临床分期和CDK1mRNA表达量显著相关(P<0.05)而与患者年龄、性别、肝脏纤维化Ishak评分、肝功能Child-Pugh分级、残留肿瘤、组织学分级无明显相关(P>0.05)。 4.生存资料多因素分析显示,临床分期(HR:2.272,95%CI:1.559-3.310,P<0.001)和CDK1mRNA表达量(HR:1.287,95%CI:1.071-1.547,P=0.007)是肝细胞癌患者预后的独立危险因素 结论:1.CDK1mRNA在肝细胞癌组织中过表达,其表达水平与患者年龄、组织学分级、临床分期、复发状态、生存现状密切相关。 2.CDK1mRNA表达水平可作为肝细胞癌患者预后不良的独立危险因素。