摘要
目的:据国家癌症中心最新数据统计报道,乳腺癌超越肺癌成为中国女性发病率最高的肿瘤,在全球乳腺癌发病率中高居首位。中国乳腺癌5年生存率仍与发达地区存在差距,死亡率也逐年升高。乳腺癌仍是危害女性健康的最主要肿瘤,为中国卫生健康事业带来巨大的挑战。为此,本研究以DNA甲基化测序、转录组测序现代生物学测序技术获得的数据资源为基础,从多组学水平探究乳腺癌发生过程中的病理机制,挖掘乳腺癌预后标志物,为乳腺癌的治疗和诊断提供新的靶点和方向。 方法:1.通过收集TCGA数据库中乳腺癌组织样本和癌旁组织样本的临床特征资料及转录组数据,预处理后筛选出差异表达基因(DEGs)。以DEGs为背景数据,利用pearson相关性算法进行差异表达基因聚类分析,构建加权基因共表达网络,识别出模块基因。进一步研究模块基因与临床特征Event、Age、M、N、T之间相关性分析,选择高度相关的模块进行GO富集分析,并利用cytoscape软件搭建PPI(蛋白互作)网络,识别hub基因。最后,通过生存分析和ROC曲线验证hub基因。2.通过收集TCGA数据库中乳腺癌组织样本和癌组织样本的临床特征数据及DNA甲基化芯片数据,进行样本质控分析后筛选出差异甲基化位点及对应的差异甲基化基因。接下来通过pearson相关性算法分析差异甲基化位点数据,构建加权共甲基化网络及识别共甲基化模块。然后应用spearman相关性分析,计算临床特征Event、Age、M、N、T与模块基因之间的相关性,选择与其高度相关的模块进行GO富集分析,并识别出其中关键甲基化位点。最后应用生存分析验证甲基化位点。 结果:1.转录组数据共有1217个样本,包含1072个癌组织样本,99个癌旁组织样本,60488个基因,从中筛选出14174个DEG(设置log2FoldChangegt;0,padjlt;0.05),包括上调基因2804个、下调基因2052个。在加权基因共表达网络分析中聚类识别出6个模块,其中,与临床特征Event高度相关的基因模块为blue模块;与临床特征Age高度相关的基因模块为turquoise模块;与临床特征M高度相关的基因模块为yellow模块和brown模块;与临床特征N高度相关的基因模块为yellow模块;与临床特征T高度相关的基因模块为blue模块。与临床特征Event高度相关的blue模块主要参与细胞分裂及细胞周期的调控等;与临床特征M、N高度相关的yellow模块主要参与细胞外基质的调控、微丝形成的调控、骨骼系统的发育等;与临床特征Age、T高度相关的turquoise模块主要涉及肌肉系统的活动及发育,离子通道激活调控等生物过程。根据生存分析和ROC曲线结果发现九个关键基因(CDK1、COL11A1、COL10A1、MMP13、CENPF、COMP、TPX2、NCAPG、AURKA)与乳腺癌预后及诊断密切相关。2.乳腺癌的甲基化数据共有1888个样本,包含1785个癌组织样本,98个癌旁组织样本,筛选出221086个差异甲基化位点,对应20622个差异甲基化基因。在差异甲基化共表达网络分析里识别出9个模块,与临床特征Event高度相关的基因模块为blue模块;与临床特征Age高度相关的基因模块为turquoise模块;与临床特征M高度相关的基因模块为yellow模块;与临床特征N高度相关的基因模块为turquoise模块;与临床特征T高度相关的基因模块为blue模块。富集分析结果显示blue模块在生物过程中主要参与胚胎器官的发育、泌尿生殖系统的发育等,在细胞组成中参与细胞微丝、肌动蛋白细胞骨架形成等,在分子功能中参与DNA转录、蛋白质丝氨酸/苏氨酸/酪氨酸激酶信号转导通路调控等生物学功能。K-M生存分析显示该模块中TECR(cg23690893)、MAD1L1(cg05434287)、ASAP1(cg07799299)、SLC12A4(cg01817009)这四个甲基化位点甲基化状态与肿瘤的预后生存密切相关。 结论:1.从转录组水平及DNA甲基化水平上分析,本研究发现细胞外基质的调控、微丝及肌动蛋白骨架形成的调控、以及骨骼系统的发育,可能共同影响肿瘤的微环境促进了乳腺癌的复发和转移。同时细胞分裂、细胞周期的调控及细胞内信号通路的激活等生物过程也与乳腺癌的侵袭、增殖密切相关。 2.CDK1、COL11A1、COL10A1、MMP13、CENPF、COMP、TPX2、NCAPG、AURKA在乳腺癌的发生、转移上发挥重要作用,并与乳腺癌的预后及诊断密切相关。TECR(cg23690893)、MAD1L1(cg05434287)、ASAP1(cg07799299)、SLC12A4(cg01817009)四个基因的甲基化位点与乳腺癌预后密切相关,上述基因可能成为乳腺癌新的生物标志物。