摘要
目的:基于机器学习算法构建妊娠期糖尿病(Gestationaldiabetesmellitus,GDM)预测模型,筛选最优GDM预测模型。通过利用SHAP算法对最优模型进行可视化解释,并探讨GDM发病的潜在风险因素,为GDM的预防和干预措施制定提供参考依据。 方法:采用回顾性研究方法,选择2021年01月01日至2022年12月31日深圳市宝安区妇幼保健院就诊的孕妇,根据医院检验信息系统和深圳市妇幼保健管理系统收集孕妇的一般临床资料、孕早期(9-13+6周)的各项检测指标、孕中期(16-18周)的各项血液指标。将数据集按照8:2随机分为训练集和测试集,通过特征变量筛选,构建了轻量级梯度提升(LightGBM)、基于极端梯度提升(XGBoost)、逻辑回归(LR)、梯度提升树(GBDT)、随机森林(RF)、K最近邻(KNN)等六种机器学习算法,通过受试者工作特征曲线(ROC曲线)和校准曲线对其进行性能评价筛选出最优模型,通过临床决策曲线(DCA)对最优模型进行临床实用性进行评价,并对整体建模过程采用五折交叉验证方法进行内部验证。最后利用沙普利加和解释法(SHAP)对预测模型进行可视化解释,计算每个特征的重要性,对特征变量进行重要性排序、模型贡献程度分析、特征依赖性分析。 结果:共纳入3360例孕妇,其中680例(20.24%)发生GDM。通过梯度提升和随机森林算法筛选出30个特征变量,采用LightGBM、XGBoost、Logistic、GBDT、RF、KNN算法构建预测模型,其AUC分别为0.820、0.800、0.760、0.797、0.792、0.589,LightGBM模型的校准曲线的校准程度最好,BrierScore为0.115,LightGBM模型在六个模型中具有最佳预测性能。临床决策曲线分析表明,当高风险阈值在0.05-0.94时,LightGBM模型对GDM的发生具有良好的临床净收益率,五折交叉验证显示模型内部验证效果较好。SHAP条形图显示影响性居前5位的重要临床特征依次为中孕期空腹血糖、孕前体重指数、糖化血红蛋白、早孕期血红蛋白浓度、年龄,说明上述特征变量对于LightGBM模型预测GDM具有重要意义。SHAP贡献图显示,与GDM发病风险大致呈正相关关系的特征变量有中孕期空腹血糖、孕前体重指数、糖化血红蛋白、早孕期血红蛋白浓度、年龄、尿糖、早孕期白细胞数、中孕期嗜酸性粒细胞百分比、叶酸、孕前体重、平均动脉压、早孕期淋巴细胞绝对值、甲胎蛋白的MOM值、游离雌三醇的MOM值。与GDM发病风险大致呈负相关关系的特征变量:游离甲状腺素、中孕期血小板体积分布宽度、妊娠相关蛋白A、中孕期红细胞体积分布宽度、尿素。与GDM发病风险大致呈J型关系的特征变量:早孕期红细胞数。此外,SHAP交互图显示,中孕期空腹血糖、孕前体重指数、糖化血红蛋白对GDM发病风险影响呈现潜在交互关系。 结论:相较于其他五种机器学习算法,LightGBM算法构建的妊娠期糖尿病预测模型展现出更优异的预测价值,同时引入SHAP算法增强模型的可解释性,有助于及早识别GDM高危孕妇和关键因素,为精准预防GDM提供依据。