摘要
本文主要从以下几个部分展开论述: 第一部分 无创预测食管鳞状细胞癌无进展生存期的影像组学列线图 目的: 基于计算机断层扫描(Computed tomography,CT)图像,构建一个术前预测食管鳞状细胞癌(Esophageal squamous cell carcinoma,ESCC)预后的模型。 方法: 1、本研究回顾性分析了山西省肿瘤医院2016年2月至2018年10月期间经病理诊断证实的272例ESCC患者(TNM分期:Ⅰ-Ⅲ期)。我们收集了研究对象的CT扫描图像和临床资料,并将其按3∶1的比例随机分为训练队列(N=204例)和验证队列(N=68例)。 2、基于CT图像,使用3D-Slicer软件绘制感兴趣区域(Region of interest,ROI),并用Python软件提取影像组学特征。采用Matlab 2016b软件,基于单变量统计分析(2-sample t-test),在训练队列中筛选出死亡组与存活组之间具有差异的特征;然后,使用最小绝对收缩和选择算子(Least absolute shrinkage and selection operator,LASSO)构建影像组学标签(Radiomics signature);采用单变量Cox比例风险模型来计算影像组学标签的一致性指数(Concordance index,C-index);基于多因素Cox回归算法,将影像组学标签、传统TNM分期和临床特征融合,构建影像组学列线图模型;通过校准曲线和决策曲线分析(Decisioncurve analysis,DCA)评估其预测性能和临床实用性;采用Spearman相关性,分析预后影像组学特征与临床特征的相关性。 结果: 1、通过单变量统计分析,从954个影像组学特征中筛选出221个特征(P<0.05);采用LASSO回归方法筛选出21个特征,构建影像组学标签,该影像组学标签与无进展生存期(Progression-free survival,PFS)显著相关(P<0.001)。训练队列中影像组学标签的曲线下面积(Area under the curve,AUC)为0.878(95%CI:0.831-0.924),验证队列为 0.857(95%CI:0.767-0.947)。在这两个队列中,影像组学标签的中位数能够显著区分患者的生存状态;Kaplan-Meier生存曲线也进一步证实了影像组学标签可以较好地预测预后;影像组学标签的C-index,分别为 0.758(95%CI:0.708-0.808)和 0.748(95%CI:0.656-0.840)。 2、影像组学列线图将影像组学预后分数(Radiomicsscore,Rad-score)与TNM分期相结合,在训练队列中显示出比单独的TNM分期预测预后性能有明显提高(C-index,0.770 vs.0.603;P<0.05);将Rad-score与临床特征相结合的影像组学列线图,与单独的临床特征相比也是如此(C-index,0.792 vs.0.680;P<0.05)。在验证队列中,研究结果也得到了证实。DCA曲线显示,当阈值概率在0到1之间时,基于CT的影像组学列线图模型将比TNM分期和临床特征相结合的模型获得更高的净收益。热图显示影像组学特征与肿瘤分期之间具有相关性(P<0.05)。 结论: 基于CT的影像组学列线图可以更好地预测ESCC患者预后。 第二部分 数字病理联合基因组学预测食管鳞状细胞癌总生存期的列线图 目的: 基于病理组学、转录组学以及临床特征,构建一个预测ESCC总生存期(Overallsurvival,OS)的列线图模型。利用匹配的组织病理图像和RNA测序数据,探索肿瘤在基因组学和病理表型方面的关联性,揭示ESCC预后病理组学表型的生物学意义,为利用病理学图片进行ESCC疾病预后提供理论依据。 方法: 1、本研究共纳入了三个数据集的HE染色的组织病理图像和转录组学测序数据,分别是:ESCC多位点取样队列(N=39)作为训练集和测试集;ESCC单位点取样队列(N=136)作为ESCC外部验证集;以及癌症基因组图谱(The cancer genome atlas,TCGA)中的喉鳞状细胞癌(Laryngeal squamous cell carcinoma,LSCC)(N=108)作为LSCC外部验证集。 2、基于组织病理图像,使用Qupath软件绘制感兴趣区域(Region of interest,ROI),并用Python软件提取病理组学特征。分三个步骤进行特征筛选,包括多重分割测试、单变量预后分析和最小绝对收缩和选择算子(Least absolute shrinkage and selection operator,LASSO)Cox 比例风险回归方法。随后,构建并评估病理组学标签(Pathomics signature,PS),用于预测总生存期。采用单变量Cox回归模型,计算病理组学标签的一致性指数C-index。 3、基于转录组测序的基因表达数据,构建加权基因共表达网络。在训练集中,保留了测试集中高保守性(Zsummary≥10)的基因模块。随后,利用这些基因模块进行基于训练集样本的基因集变异分析(Gene set variation analysis,GSVA),通过Pearson相关性分析,确定与PS显著相关(P<0.01)的基因模块。以|MM|>0.80和GS>0.20为临界值,确定模块中的核心基因。基于核心基因,采用单变量Cox回归分析筛选出关键基因(P<0.05),构建多变量Cox回归模型,得出预后病理组学基因分数(Pathomics gene expression score,PS-Gene score),以及 C-index。 4、采用单因素Cox回归分析,确定与ESCC患者预后相关的临床因素;基于多因素Cox回归模型,整合PS、PS-Gene score和临床因素,构建临床-病理-基因组学列线图,以更好地针对ESCC患者进行预后;并计算列线图的C-index。通过校准曲线和决策曲线分析(Decision curve analysis,DCA)来评估列线图的预测性能和临床实用性。 5、对与PS相关的基因模块进行通路富集分析,计算每位患者通路的GSVA评分。采用Pearson相关性,分析通路的GSVA评分与预后病理组学特征的相关性(P<0.10)。最后,根据其相关性通路,将预后病理组学特征分类,相关信号通路即为病理组学表型表达的潜在生物学意义。 结果: 1、基于特征的重现性分析,从945个病理组学特征中,筛选出864个特征(ICC≥0.85);进而采用单因素预后分析,筛选出其中31个特征,并通过LASSO-Cox回归分析,筛选出其中21个系数不为0的病理组学特征,构建病理组学标签。在训练集和测试集中,病理组学标签的中位数能够显著区分患者的生存状态;Kaplan-Meier生存曲线上两组间生存率的差异(P<0.0001),表明病理组学标签与ESCC患者的OS相关;病理组学标签的C-index在训练集为0.756,在测试集为 0.734。 2、在训练集中,9个高度保守的基因模块被保留;其中有2个模块,与PS显著相关。我们选取了图3-3中Zsummary最大的青绿色模块用于进一步研究。在该模块中,以|MM|>0.80和GS>0.20为临界值,筛选出44个核心基因,并进行单变量Cox回归分析,筛选出26个关键基因;利用它们构建多变量Cox回归模型,得到 PS-Gene score。在训练集和测试集中,PS-Gene score的C-index分别为 0.778 和 0.736。 3、单因素Cox回归分析,表明TNM分期是影响ESCC患者预后的危险因素(P<0.05)。在训练集(C-index,0.823vs.0.756vs.0.778)和测试集(C-index,0.774 vs.0.734 vs.0.736)中,整合 PS、PS-Gene score 和 TNM 分期的列线图与单独的PS和PS-Gene score相比,预测性能达到了最佳。列线图的校准曲线和DCA曲线,表明该模型具有较好的预测准确性和临床实用性。 结论: 我们证明了基于PS、PS-Gene score和TNM分期联合预测模型比单独的病理组学模型对ESCC患者的预后具有更好的预测准确性。组织病理图像上预测ESCC患者总生存期的病理组学表型是由参与ESCC的肿瘤增殖、代谢和细胞热激的不同关键通路所表达的;热激通路与患者的总生存期具有显著相关性(P<0.05)。肿瘤在基因组学和表型方面表现出了肿瘤异质性。