摘要
宫颈癌(CESC)是女性生殖道常见的一种发病率较高的恶性肿瘤,发生在子宫部位。近年来,宫颈癌的发病率和死亡率在全世界急剧上升。这种肿瘤大多在现有的医疗条件下是无法彻底治愈的,但如果早期发现,早做治疗,预后还是比较好的。随着生物信息学技术的快速发展,用生物信息学的各类组学数据对癌症进行相关探索已经成为当下科研人员感兴趣的研究课题。目前比较常见的有DNA甲基化数据,基因表达谱数据和拷贝数数据。目前大部分研究都是基于单组学数据为基础进行研究的,因此本论文的创新点是选取宫颈癌的DNA甲基化数据和RNA基因表达数据,在免疫微环境情况下以多组学数据为基础做了以下几项工作。 本研究首先从GEO下载CESC的DNA甲基化数据(GSE30760和GSE211668),然后使用R语言中“limma”包对下载的甲基化数据进行差异分析并筛选出上调基因和下调基因,之后再使用维恩图将上调基因和下调基因进行交叉选出共同的基因。最后使用深度神经网络和随机森林模型验证差异基因能否很好的识别肿瘤样本和正常样本。 接着,再使用估计算法(estimate)评估肿瘤微环境中的免疫细胞和基质细胞的含量,并根据TCGA的RNA基因表达谱数据和临床数据进行临床分析,来确认免疫细胞和基质细胞对临床分期和组织学等级的影响。利用R语言中的“limma”包和维恩图对基因表达数据进行差异基因分析,筛选出重叠基因,对这些重叠基因进行GO和KEGG功能富集分析以确定这些差异基因是否与免疫相关。 最后,根据基因表达数据构建蛋白质-蛋白质相互作用(PPI)网络以发现前十个重要的基因。将PPI网络中的重要基因进行生存分析,得出7个基因与宫颈癌较差的生存期显著相关,接着将这7个基因与之前甲基化数据的差异基因进行交集,筛选出了四个关键的基因(CD80,CD3G,CD3D,CD3E),最后使用TIMER数据库来验证所挖掘的关键基因。 本研究的结果证明了,CD80,CD3G,CD3D和CD3E这4个基因在宫颈癌的预后治疗中具有重要的意义,可以被认为是宫颈癌潜在的生物标志物。通过本项研究,我们期望挖掘出的标志物(CD80,CD3G,CD3D和CD3E)能够对宫颈癌后续的临床治疗产生一定的帮助。