首页|基于机器学习的前列腺癌综合预测模型:转移方向、双原发及癌变状态和部位的精准诊断

基于机器学习的前列腺癌综合预测模型:转移方向、双原发及癌变状态和部位的精准诊断

张贝尔

基于机器学习的前列腺癌综合预测模型:转移方向、双原发及癌变状态和部位的精准诊断

张贝尔1
扫码查看

作者信息

  • 1. 淮北师范大学
  • 折叠

摘要

虽然肿瘤医学的进步改善前列腺癌患者的预后和生存期,但患者生存期的延长可能会提高癌细胞在其他部位发生双原发癌症,以及第一原发癌转移至其他器官的风险。现如今的诊断治疗方法并没有脱离临床实践的总结,以及基于组织切片的遗传检测,这些方法可能受到医生主观判断的限制,并且通常需要进行侵入性且复杂的手术来获取样本。为解决这些挑战,本研究提出一个基于机器学习的综合分析框架,该框架专注于三个相互关联且互为补充的核心医学问题:识别前列腺癌患者的双原发肿瘤、预测癌症转移部位以及研究首发前列腺癌的发生部位。这种综合性研究不仅能提高诊断的准确性,而且能优化治疗策略,极大地促进前列腺癌的个性化治疗。通过这三个互补的研究方向,我们旨在构建一个能够精确诊断并指导治疗决策的科学框架,主要内容如下: (1)双原发前列腺癌癌症患者的预测: 运用机器学习模型预测患者是否会发展出双原发肿瘤,以帮助医生有效评估首次患前列腺癌患者的预后风险,并定制个性化治疗计划。首先,使用R语言中的Table1包预测变量相对应的参数估计。然后,使用经典机器学习算法-决策树和深度学习算法,如一维卷积,进行预测。最后,使用集成算法进行优化。在输入字段中,年龄、种族、婚姻状况、等级、T分期、癌症手术原因、放化疗、格里森分级和前列腺血清抗原水平对结果有显著影响。与支持向量机模型的82%的F1分数相比,决策树模型提高了10.1%,达到92.10%的分数,而基于决策树的Stacking堆叠模型达到92.28%的分数。结论:决策树模型表现较好,Stacking堆叠算法模型相对决策树有细微提升,可以应用于前列腺癌的双原发的预测,并对临床医生的提前决策提供有价值和有意义的参考。 (2)前列腺癌转移部位的预测: 本框架包含用于预测前列腺癌可能转移部位的模型,此研究成果将帮助临床医生提前制定预防措施和治疗方案,以针对性地防止癌症的进一步扩散。研究采集了SEER癌症数据库中2010年后(包括2010年)五年内的73963例前列腺癌数据为临床资料,构建转移方向数据库,将预测的四个转移部位使用二进制编码来定制化标签,使得更加直观。由于癌症数据库样本的不平衡性,本实验采用过采样来生成指定数量的少数类样本,使得少数类和多数类的样本比例为1∶1。构建逻辑回归、随机森林、支持向量机、Stacking堆叠算法四个预测模型,使用交叉验证的方式进行训练集和测试集的划分。最终Stacking堆叠算法具备更稳定,更高的表现,F1-score高达93.21%,相对于F1-score评分为91.76%的随机森林略有提高,相对于逻辑回归(88.33%)、支持向量机(88.54)等算法,显著提高五个百分点,因此可以通过机器学习模型来判断第一原发前列腺癌的具体的转移部位。 (3)是否第一原发患癌及具体患癌部位的预测: 确定涉及前列腺癌等多种原发癌共同的基因,并通过建立预测模型实现样本是否患癌以及患癌种类的精准预测,从而为患者提供辅助治疗和严密随访,有效改善患者预后。实验从TCGA数据库中收集肿瘤样本数据,采用差异表达分析进行特征基因选择,并构建机器学习模型以对癌症基因溯源。研究结果显示,筛选出663种差异表达基因,这些基因在前列腺癌、肺鳞癌、甲状腺癌、肾透明细胞癌和膀胱尿路上皮癌中具有较好的特征性表达。逻辑回归具备更稳定以及更优秀的表现,F1-score平均值达到98%的高分,相较于朴素贝叶斯模型(94%)、支持向量机模型(98%)、随机森林模型(96%)的平均F1-score值最高提升4%。因此可通过基因表达状态精准预测患者是否可能患癌,以及患癌的具体种类,为医师的诊断和治疗提供有力支持。 (4)改进CTGANs处理不平衡数据 在医学数据分析中,数据集通常表现出不平衡性,其中多数类样本远多于少数类样本。这种不平衡性会影响预测模型的学习效果,使其难以充分捕捉到少数类的关键特征,进而导致预测结果偏向于多数类。在本研究中,所处理的医学肿瘤数据同样存在这一问题。为有效解决这一问题,我们设计一种新颖的两层CTGAN模型,该模型结合聚类算法,专门针对不平衡数据进行优化。该方法使用条件表格生成对抗网络(CTGAN)和聚类算法,通过过滤掉与少数类重叠的多数类样本,生成与原始数据分布一致的合成少数类样本,从而实现数据集的平衡。并且,通过随机数据集以及前列腺癌的三个实验数据集两方面的综合验证,提出的方法在F1得分、MCC得分G-Mean得分中相对于其他的欠采样、过采样以及未改进的CTGAN平衡策略最高有11%的提升。因此可以使用改进的CTGANs作为医学肿瘤数据的平衡策略。

关键词

前列腺癌/机器学习/个性化治疗/诊断准确性

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

范祺

学位年度

2024

学位授予单位

淮北师范大学

语种

中文

中图分类号

R73
段落导航相关论文