首页|基于乳腺X线及临床特征的导管内癌分子亚型预测模型构建及应用研究

基于乳腺X线及临床特征的导管内癌分子亚型预测模型构建及应用研究

杨凌乔

基于乳腺X线及临床特征的导管内癌分子亚型预测模型构建及应用研究

杨凌乔1
扫码查看

作者信息

  • 1. 南方医科大学
  • 折叠

摘要

乳腺导管内癌(ductal carcinoma in situ,DCIS)是一种起源于乳腺上皮组织,局限于导管末梢小叶单位,未突破基底膜的恶性肿瘤。乳腺X线是乳腺癌筛查的主要方法之一,特别是对微小钙化具有高度敏感性。DCIS的主要影像征象为钙化。随着越来越广泛地使用乳腺X线进行常规筛查,更多的乳腺导管内癌被检出。DCIS可以发展为浸润性导管癌(invasive ductal carcinoma,IDC),其被认定为IDC的危险因素;因此,DCIS的早期诊断十分重要,结合适当的治疗能有效预防其发展为IDC。由于DCIS的分子高度异质性,不同的分子亚型以及不同的组织学级别有着不同的生物学行为,也有着不同的治疗方法,预后也不相同。本研究主要分析不同分子亚型DCIS的X线征象,通过构建机器学习模型预测DCIS的不同分子亚型,有助于肿瘤风险分层,有助于临床更好地进行治疗决策及更精确地了解肿瘤的预后。 本研究分为两部分:第一部分通过分析不同分子亚型和不同组织学级别DCIS的影像表现,探讨DCIS分子亚型与X线征象的关系、钙化性DCIS的钙化形态及钙化分布与分子亚型的关系、中低级别及高级别DCIS与钙化形态及钙化分布的关系。第二部分基于临床信息和乳腺X线征象分别构建随机森林(Random Forest,RF)、极端梯度提升(Extreme Gradient Boosting,XGBoost)、逻辑回归(Logistic Regression,LR)、多项式朴素贝叶斯(Multinomial Naive Bayes,MNB)这四种学习模型,预测DCIS的不同分子亚型及不同组织学级别,以AUC(Area Under Curve)值为评价各个模型预测效能的指标,择出最优模型后通过加入SHAP(shapley additive explanations)值对该模型进行分析,直观地观看模型的重要贡献特征。 一、材料与方法 1、病例资料 回顾性分析239例在南方医院经病理证实为乳腺导管内癌的患者,年龄29-78岁,平均年龄为47.7±8.4岁。手术后有完整的病理免疫组化结果及组织学分级。根据免疫组织化学结果分成三种分子亚型:①HR阳性型DCIS:ER和/或PR阳性,HER2阴性;②HER2阳性型DCIS:HER2阳性,ER、PR任何水平;③三阴性型DCIS:ER、PR、HER2均为阴性。根据细胞核的特征将DCIS的组织学核分级分为中低级别、高级别两组。 2、特征提取 (1)第一部分 由两名有5年以上诊断工作经验的影像医师对X线图像进行独立诊断阅片,诊断的内容包括:腺体分型(非致密类、致密类)、影像征象(单纯钙化、单纯肿块、结构扭曲或不对称致密、钙化伴肿块、钙化伴结构扭曲或不对称致密)、钙化形态(细点状及圆形、模糊不定形、细小多形性、粗糙不均质、线样或线样分枝状)、钙化的分布(成簇分布、区域分布、线样或段样分布、弥漫分布)、BI-RADS分类(1-4A类、4B-5类,并以4B-5类为符合诊断)。 (2)第二部分 通过临床病历和乳腺X线图像,共收集10个临床信息、17个影像特征。临床信息包括患者的年龄、有无绝经、家族史、生育史、哺乳史、能否触诊到病灶、触诊病灶活动度、触诊病灶是否质硬、触诊病灶边界、有无乳头溢液。X线影像特征包括乳腺腺体分型、有无肿块、肿块形态、肿块密度、肿块边缘、有无钙化、钙化分布、钙化形态、有无结构扭曲、有无不对称致密、有无小梁结构改变、有无悬韧带增厚、有无皮下脂肪层浑浊、有无皮肤增厚,有无乳头回缩、有无导管扩张、有无淋巴结异常。 3、模型的构建 基于有统计学差异的临床信息及乳腺X线征象构建RF、XGBoost、LR、MNB机器学习模型,预测HR阳性型与非HR阳性型DCIS、HER2阳性型与HER2阳性型DCIS、三阴性与非三阴性DCIS、中低级别与高级别DCIS。以AUC值为预测效能的评价指标,择出最优模型后通过加入SHAP值来实现模型的可解释性,直观地观察最优模型的重要贡献特征。 4、统计学方法 采用SPSS23.0软件进行分析。计数资料以频数n表示,采用x 2检验或Fisher确切概率法;符合正态分布的计量资料以x±s表示,采用独立样本t检验,不符合正态分布的计量资料采用Mann-Whitney U检验。以P<0.05为差异有统计学意义。以AUC为评价各个模型预测效能的主要指标,并采用Delong检验进一步分析各模型之间的AUC。 二、第一部分研究结果: 1、DCIS分子亚型与X线影像征象的关系 HR阳性型DCIS的X线征象多表现为单纯钙化和钙化伴肿块,HER2阳性型DCIS的X线表现多为单纯钙化和钙化伴肿块,三阴性DCIS的X线表现多为钙化伴肿块、单纯肿块。 2、钙化性DCIS的钙化形态、分布与不同分子亚型关系 HR阳性型DCIS的钙化形态多表现为细小多形性和模糊不定形,钙化分布主要为成簇分布、段样或线样分布;HER2阳性型DCIS主要为线样或线样分支状钙化,呈段样或线样分布;三阴性DCIS的钙化形态无明显特异性,钙化分布主要为成簇分布。三种分子亚型在钙化形态、钙化分布上差异有统计学意义。 3、不同组织学级别DCIS与钙化形态、分布的关系 中低级别与高级别DCIS均以钙化性病变为主。低中级别DCIS的钙化特点主要为细小多形性、模糊不定形钙化,成簇分布或呈段样或线样分布。高级别DCIS的钙化特点主要为线样及线样分支状、细小多形性钙化,呈段样或线样;低中级别与高级别DCIS的钙化形态、钙化分布均为差异有统计学意义。 三、第二部分研究结果 1、DCIS不同分子亚型和不同组织学分级的特征分析 纳入构建HR阳性型学习模型的临床特征为月经史、能否触诊到病灶、触诊病灶边界、触诊病灶活动度、触诊病灶是否质硬,影像特征为钙化形态、钙化分布、小梁结构改变、有无皮肤增厚、有无皮下脂肪层改变、有无悬韧带改变、有无乳头回缩。纳入构建HER2阳性型学习模型的临床特征为能否触诊到病灶、触诊病灶是否质硬,影像特征为肿块密度、有无钙化、钙化形态、钙化分布、有无皮肤增厚、有无乳头回缩。纳入构建三阴性型学习模型的临床特征为年龄、月经史,影像特征为有无肿块、肿块密度、肿块形态、有无皮下脂肪层改变、钙化形态。纳入构建低中级别与高级别学习模型的临床特征为生育史、触诊病灶是否质硬、能否触诊到病灶、触诊病灶边缘,影像特征为有无钙化、钙化形态、钙化分布、肿块密度、有无皮肤增厚、有无小梁结构改变。 2、机器学习模型预测各分类的效能评估 预测HR阳性型与非HR阳性型、HER2阳性型与非HER2阳性型、三阴性与非三阴性DCIS的最优学习模型均为MNB,AUC值分别为0.786(95%CI:0.673-0.874)、0.821(95%CI:0.712-0.90 1)、0.725(95%CI:0.607-0.823)。预测中低级别与高级别DCIS的最优学习模型为RF,AUC值为0.778(95%CI:0.664-0.867)。预测HR阳性型与非HR阳性型的最优模型MNB与XGBoost的AUC有统计学差异,与RF、LR的AUC均无统计学差异。在其他三种分类中,各学习模型之间的AUC值均无统计学差异。 3、可解释性分析最优学习模型的特征 对HR阳性型、HER2阳性型DCIS最优模型有重要影响的主要特征为线样及线样分支状钙化、成簇分布钙化、段样或线样分布钙化。三阴性DCIS最优模型的重要贡献特征为无肿块、钙化。在中低级别与高级别DCIS的最优模型中,最重要特征依次为线样或线样分支状钙化、段样或线样分布钙化、模糊不定形钙化、成簇分布钙化。 四、结论 1、HR阳性型、HER2阳性型和不同组织学级别DCIS的主要影像征象均表现为钙化;其中HR阳性型、中低级别DCIS的钙化主要为成簇分布的细小多形性钙化;HER2阳性型、高级别DCIS的钙化主要为段样或线样分布的线样或线样分支状钙化;肿块伴或不伴钙化为三阴性DCIS的主要影像征象。不同分子亚型和不同组织学级别DCIS的钙化形态、钙化分布均差异有统计学意义。 2、MNB为三种分子亚型DCIS的最优预测模型,预测效能较好,HER2阳性型DCIS预测模型的效能最佳。中低级别与高级别DICS的最优学习模型为RF,预测效能亦较好。 3、在各分类的最优模型中加入SHAP值可视化观察输出结果,显示线样或线样分支状钙化、成簇分布钙化、段样或线样分布钙化均为HR阳性型、HER2阳性型、中低级别与高级别这三种二分类学习模型的重要贡献特征。这与第一部分中通过传统统计学方法分析得到的HR阳性型、HER2阳性型、中低级别与高级别DCIS的主要影像特征相似,结果表明基于机器学习模型预测DCIS不同分子亚型及不同组织学级别相对可靠。三阴性DCIS的重要贡献特征为无肿块、钙化,这一结果与既往研究不符。可能是由于三阴性DCIS的总例数较少,难以全面准确地分析其影像特点,并且构建模型前筛掉了部分该分子亚型的重要特征,影响了预测模型的输出结果。

关键词

乳腺导管内癌/乳腺X线/临床特征/机器学习/可解释性

引用本文复制引用

授予学位

硕士

学科专业

影像医学与核医学

导师

陈卫国

学位年度

2024

学位授予单位

南方医科大学

语种

中文

中图分类号

R73
段落导航相关论文