摘要
肺癌是一种高度分化的恶性肿瘤,居于肿瘤全球发生率以及致死率的前列,非小细胞肺癌(Non-smallcelllungcancer,NSCLC)是肺癌中最主要的一种病理类型,约占所有肺部肿瘤的85%。非小细胞肺癌具有快速生长,侵袭性强,转移性快的生物学行为,使得该病的预后差,易复发。对于非小细胞肺癌的研究从未停歇,但其五年生存率始终不尽人意。甚至于早期非小细胞肺癌患者术后的复发率超过20%。因此进一步探究该疾病寻找出有效的治疗靶点刻不容缓。本次研究将根据非小细胞肺癌的亚型特征分别探究更具针对性的预后靶点。基于癌症基因组图谱数据库(TheCancerGenomeAtlas,TCGA)挖掘预后相关标志物,构建风险模型预测非小细胞肺癌中Ⅰ-ⅢA期肺鳞状细胞癌的复发以及肺腺癌的预后。 第一部分联合RNA签名预测Ⅰ-ⅢA期肺鳞状细胞癌的复发风险 目的: 非小细胞肺癌的亚型之一为肺鳞状细胞癌(lungsquamouscellcarcinoma,LUSC)是一种与个体所承受的烟草暴露情况密切相关联的肺癌类型,占肺癌所有病理类型的40%左右。LUSC的临床预后往往较差,其发生、发展过程中的生物标志物和精确靶点仍不清楚,靶向药物在肺鳞状细胞癌中的研究还需要漫漫长路的探索。在临床上Ⅰ-ⅢA期LUSC的治疗方式主要以根治性手术切除为主,但依然约20%的患者术后出现复发,从而导致不良的预后结果。本研究旨在通过TCGA高通量微阵列技术探索Ⅰ-ⅢA期肺鳞状细胞癌复发相关联的长链非编码RNA(longnon-codingRNAs,lncRNAs)、微小RNA(microRNAs,miRNAs)和信使RNA(messengerRNA,mRNAs)这些风险因素,继而基于这些风险因素来构建复发风险评估模型,个体化预测Ⅰ-ⅢA期LUSC术后复发的风险概率,筛选高危人群,指导术后随访和治疗。 方法: 1.数据来源癌症基因组图谱数据库中下载RNA-seq(其中含有lncRNAs、miRNAs和mRNAs)及相应的临床随访参数与病理信息。 2.初步筛查差异表达基因:使用“DESeq2”R语言软件包识别癌症样本与正常组织间差异表达的lncRNAs、miRNAs和mRNAs。 3.筛选复发相关的候选基因:用单因素Cox比例风险回归分析挖掘临床病理变量与无复发生存期(recurrence-freesurvival,RFS)之间的相关性,采用Kaplan-Meiers绘制生存曲线并计算出复发风险的大小。 4.组建模型:建立预测复发风险的预后模型通过逐步多因素Cox回归分析。 5.验证预测模型的有效性:采用Kaplan-Meier曲线生存图和受试者工作特征曲线(ReceiverOperatingCharacteristicCurves,ROC曲线)检测模型在训练集、验证集和总体数据集中的预测有效性。 结果: 1.登录TCGA数据库,肺鳞状细胞癌样本551例,下载所有样本的测序基因连同临床病理信息。其中Ⅰ-ⅢA期LUSC患者复发样本27例,未复发样本134例。 2.在复发与未复发的161例Ⅰ-ⅢA期LUSC患者中分析出差异表达基因(DifferentiallyExpressedGenes,DEGs)lncRNAs431个、mRNAs746个和miRNAs36个。 3.确定出与Ⅰ-ⅢA期LUSC患者复发有关的46个lncRNAs(其中上调的lncRNA23个;下调的lncRNA23个),41个mRNAs(其中上调的mRNA11个;下调的mRNA30个)和4个miRNAs(其中上调的miRNA3个;下调的miRNA1个)。 4.从这些DEGs中最终确定最佳的分子组合,构建用于临床复发预测的9个联合RNA分子特征,包括LINC02683、AC244517.5、LINC02418、LINC01322、AC011468.3、hsa-mir-6825、AC0206371、AC027117.2和SERPINB12。复发预测模型的ROC曲线下面积(AreaUnderCurve,AUC)3年为0.989,5年为0.958(在训练集中),表明该模型具有较为不错的预测递归性。在验证集和整个数据集中,联合RNA标记也显示出良好的预测复发的性能。 小结: 基于TCGA数据库,我们构建了一个联合9个分子的签名用于预测Ⅰ-ⅢA期LUSC复发。最终我们的发现为Ⅰ-ⅢA期LUSC复发的风险预测和肿瘤标志物靶点治疗提供了新的临床证据。 第二部分LncRNA签名构建模型预测肺腺癌预后及LINC00973对肺腺癌细胞增殖的影响 目的: 非小细胞肺癌的另一病理亚型是肺腺癌(LungAdenocarcinoma,LUAD)。其新发病率和死亡率一直处于稳定上升趋势,约占肺癌所有病理类型的50%。它在男性患者中略占优势,但在女性(相对年龄偏小的)和从未有过吸烟史的人中并不少见。当前在临床上面临着由于靶向遗传耐药基因的突变或者靶外产生耐药机制的双重考验,药物治疗的患者耐药率增高,导致治疗效果降低甚至是失效。因此,需进一步揭示LUAD的内在机制,寻找新的潜在靶点,以探索出有效的诊断和治疗方案。近年来lncRNAs作为热点基因被争相报道,在乳腺癌,膀胱癌,甲状腺癌,脑胶质瘤等各种癌症中lncRNAs的改变在肿瘤的发生发展中起着关键影响作用。因此,我们利用TCGA中的肺腺癌基因表达谱与生物信息学方法相结合,分析出LUAD发生、发展过程中预后相关基因,发现LUAD治疗的潜在靶点,构建预后风险模型,探讨lncRNAs在肺腺癌中的生物学功能。 材料和方法: 从肿瘤基因组图谱数据库将肺腺癌样本和正常肺组织的lncRNAs表达谱及相应的临床病理参数下载下来。利用R语言的软件包“Edger”获得差异表达的lncRNAs。分子经过单因素Cox回归分析剔除后,Kaplan-Meier生存分析计算并绘制出生存曲线图,鉴定出在肺腺癌中既有差异表达意义又具有预后意义的lncRNAs分子。LUAD患者预后风险的评估模型通过多因素Cox风险回归分析被构建成组。并用Kaplan-Meier生存曲线、时间依赖性的ROC曲线分别进行验证。选择上述相同的方式在验证集和总体样本集中对预测效能进行评估。此外,选择了模型中的一个分子LINC00973,通过LUAD细胞功能实验CCK8,克隆形成实验验证了该分子的增殖功能。 结果: 肺腺癌的数据从TCGA数据库中获得,经过解析获得535例肺腺癌样本及59例正常肺组织样本。其lncRNAs表达谱及临床参数均一同从TCGA中获得。“Edger”R包对比分析得到2263个lncRNAs其差异具有统计学意义。25个lncRNAs一一通过单因素Cox回归分析的筛查和Kaplan-Meier生存曲线的计算证明其与预后相关。多因素Cox比例风险回归分析后最终建立起了一个基于6-lncRNAs签名的风险评分模型:风险评分=(0.05741×表达量LINC00973)+(0.16583×表达量AC092168.2)+(-0.13079×表达量LINC01150)+(-0.34624×表达量AC007663.4)+(-0.16838×表达量FAM30A)+(-0.16083×表达量AC027288.1)。以中位风险值为中线,该模型有效的将肺腺癌患者分成了两个高低风险不同的组,Kaplan-Meier生存曲线表明低风险组不同于高风险组,其生存率高,预后效果较好。同时,该模型在独立于训练集和验证集和总体样本集中的时间依赖性ROC曲线下面积值也有效证明了模型预测预后的效能。在细胞体外试验中,该模型中的LINC00973分子具有促进肺腺癌细胞增殖的作用。 小结: 基于TCGA,我们阐述明确了与肺腺癌发生、发展和预后相关的lncRNAs表达谱。LINC00973、LINC01150、AC027288.1、FAM30A、AC092168.2、AC007663.4组建的一个6-lncRNAs的肺腺癌预测预后风险概况的模型,并对肺腺癌预后有独立影响因素作用。在对LINC00973的初步探究中发现该分子对肺腺癌细胞具有促进细胞生长和增殖的作用,将来可作为肺腺癌患者新的治疗靶点。 结论: 1.本次研究是一次基于TCGA数据库中的癌症大数据分析,非小细胞肺癌的两个病理亚型,LUSC和LUAD的基因表达谱与临床数据。从多种基因层面找寻可用于个体化预测Ⅰ-ⅢA期LUSC复发和LUAD预后的肿瘤生物标志物,有望成为新的预测预后的生物标志物。 2.LINC00973影响肺腺癌细胞的增殖,发挥促癌作用可作为一个独立的危险因素,待后续深入挖掘。