首页|基于机器学习算法对胰腺癌患者预后影响因素的不同预测模型建立及比较研究

基于机器学习算法对胰腺癌患者预后影响因素的不同预测模型建立及比较研究

董永新

基于机器学习算法对胰腺癌患者预后影响因素的不同预测模型建立及比较研究

董永新1
扫码查看

作者信息

  • 1. 大理大学
  • 折叠

摘要

胰腺癌是消化系统最常见的恶性肿瘤之一,约80%患者术后1-2年内发生局部复发或远处转移,总体5年生存率约10%。SEER数据库(The Surveillance, Epidemiology, and End Results Program)作为美国权威的癌症统计数据库,记录了美国部分州县上百万名恶性肿瘤患者的发病率、死亡率和患病情况。基于SEER数据库利用机器学习算法建立预测模型可以更加有效地预测恶性肿瘤的术后生存。 目的: 利用机器学习随机森林算法(Random Forest,RF)、Logistic回归分析及Cox回归基于SEER数据库建立胰腺癌患者的预后预测模型并进行比较研究。 方法: 收集 SEER 数据库中2000-2020 年间接受手术且术后病理确诊为胰腺癌的患者,将数据集划分为训练集和验证集,比例为7﹕3。收集所有患者的一般资料、临床病理特征以及预后指标,如性别、年龄、种族、肿瘤分期(AJCC分期)、T分期、N分期、M分期、分化程度、肿瘤部位、化疗、放疗、生存时间、生存状态、确诊到治疗时间、肿瘤部位、患者原位/恶性肿瘤总数,使用单因素分析识别患者生存状态与一般资料和临床特征的关系;使用单因素Cox分析及多因素Cox分析确定胰腺癌患者预后的相关因素。使用KM-Plotter曲线探究患者临床特征与生存时间的关系,利用机器学习中的随机森林算法和传统的Logistic逻辑回归及Cox回归模型,使用训练集建立预测胰腺癌预后的模型并使用验证集和外部数据验证该模型的准确性、灵敏度和特异度,并绘制判别曲线。P<0.05为差异有统计学意义。 结果: 1.本研究共纳入了来自 SEER 数据库的8672名胰腺导管腺癌患者。男性共4262例(49.1%),女性为4410例(50.9);白种人7144(82.4%),黑种人780人(9.0%),其他人种748人(8.6%)。AJCC分期为I期患者共806名,占9.3%,Ⅱ期患者共6793名,占78.3%,Ⅲ期患者共494名,占5.7%,Ⅳ期患者共579名,占6.6%。平均生存时间为(31.04±29.30)个月,患者平均原发肿瘤数为(1.31±0.62),疾病确诊到治疗的时间为(0.75±0.98)年。训练集和验证集患者一般资料和临床特征相比,差异无统计学意义(P>0.05)。 2. KM-Plotter曲线显示,不同AJCC分期、T分期、N分期、M分期、分化程度、转移与患者生存时间有关,差异有统计学意义(P<0.05)。 3、单因素分析显示,性别(?2=7.52,P=0.006)、种族(?2=8.125,P=0.017)、AJCC分期(?2=214,P<0.001)、T分期(?2=207,P<0.001)、N分期(?2=149.38, P<0.001)、M分期(?2=22.75,P<0.001)、转移(?2=8.261,P=0.016)与胰腺导管腺癌预后较差有关。 4. 单因素Cox分析显示,性别( Exp(B)=1.080 , P<0.001 )、AJCC分期(Exp(B)=1.170,P<0.001)、AJCC T分期(Exp(B)=1.047,P<0.001)、AJCC N分期(Exp(B)=1.022,P<0.001)、AJCC M分期(Exp(B)=1.168,P<0.001)、转移(Exp(B)=1.061,P<0.001)、分化程度(Exp(B)=1.064,P<0.001)、诊断到治疗时间(Exp(B)=1.054,P<0.001)、患者原位肿瘤总数(Exp(B)=1.067,P<0.001)与胰腺导管腺癌预后较差有关。将以上变量纳入多因素Cox回归分析,结果显示,AJCC分期、T分期、N分期、M分期、分化程度、转移情况和肿瘤数目是胰腺导管腺癌的独立预后因素。 5. 基于训练队列多因素 Cox 回归分析的结果,我们建立了预测胰腺导管腺癌患者OS的个体化预测模型,并以列线图的形式展示,模型预测1年、3年和5年生存率的准确性良好。 6.Logistic 回归模型R2=0.543。AJCC T分期(B=0.533,P<0.001)和AJCC N分期(B=0.533,P<0.001), AJCC M分期(B=0.533,P<0.001)、肿瘤分化程度( B=0.143, P=0.003 )这些变量与患者预后较差有关,均具有统计学意义(P<0.05)。训练集逻辑回归模型AUC=0.974(95%CI:0.890-0.963),准确度为92.90%,灵敏度为96.9%,特异度为68.6%;验证集AUC=0.959(95%CI:0.952-0.966),准确度为93.3%,灵敏度为97.0%,特异度为71.8%;外部验证集AUC=0.618(95%CI:0.188-0.605),准确度为86.5%,灵敏度为87.5%,特异度为24.2%。校准度评价显示预后模型对应曲线与校准图中对角线贴合度较高。 7.随机森林模型前十位特征值为分化程度(重要性:0.045)、肿瘤数量(重要性:0.028)、AJCC T分期(重要性:0.028)、肿瘤部位(重要性:0.026)、种族(重要性:0.023)、性别(重要性:0.02)、放疗(重要性:0.019)、AJCC N分期(重要性:0.017)、AJCC M分期(重要性:0.015)、转移(重要性:0.014)。随机森林模型训练集AUC=0.970(95%CI:0.912-0.938),准确度为94.1%,灵敏度为95.5%,特异度为86.0%。验证集:AUC=0.951 ( 95%CI:0.944-0.959),准确度为92.2%,灵敏度为93.8%,特异度为82.7%。外部验证集AUC=0.618(95%CI:0.188-0.605),准确度为86.5%,灵敏度为87.5%,特异度为24.2%。校准度评价显示预后模型对应曲线与校准图中对角线贴合度较高。 结论: 使用随机森林算法、Logistic逻辑回归模型构建基于SEER数据库的胰腺癌患者的预后预测模型的准确度、特异度和灵敏度均较高,性能优良程度依次为随机森林算法模型、Logistic逻辑回归模型。使用Cox 回归模型建立的预测胰腺癌患者OS的个体化预测模型预测1年、3年和5年生存率的准确性良好。

关键词

胰腺癌/预后预测模型/机器学习/随机森林

引用本文复制引用

授予学位

硕士

学科专业

外科学

导师

陈奕明

学位年度

2024

学位授予单位

大理大学

语种

中文

中图分类号

R73
段落导航相关论文