摘要
背景 心血管疾病(Cardiovascular disease,CVD)已成为全球死亡主要原因,但目前各国对CVD的有效控制仍显不足。国内外已广泛开展了基于危险因素的CVD风险预测研究,但一种预测模型仅适用于某种特定CVD,且所采用数据集存在数据规模有限、缺失数据多、样本数据不一致等问题,预测效果受限。 目的 构建覆盖19种常见CVD的10年发病风险预测模型,使用可解释分析探讨预测模型内部关键因素及其对预测结果的具体影响。 方法 1.选取英国生物银行(UK Biobank,UKB)数据库中2006-2010年间招募的502,349名40-70岁的英国成人作为研究对象。 2.排除失访者、妊娠期妇女以及基线患病病例,形成19个CVD数据集。筛选保留426个研究变量,使用Logistic回归分析了年龄、收缩压、舒张压、胱抑素C等对CVD发病风险的影响。 3.基于MLJAR自动机器学习(Auto Machine Learning,AutoML)框架,选用决策树、轻量级梯度提升机器学习(Light Gradient Boosting Machine,LightGBM)、极限梯度提升算法(eXtreme Gradient Boosting,XGBoost)、类别型特征提升算法(Categorical Boosting,CatBoost)四种机器学习算法开发预测模型。使用受试者工作特征曲线下面积(Area Under ROC Curve,AUC)、校准曲线、累积增益曲线、准确率、精确率、召回率、特异性等指标多维度评估模型性能。 4.采用沙普利加和解释(SHapley Additive exPlanations,SHAP)方法和部分依赖图确定不同变量对模型预测结果的贡献。 结果 1.研究对象基本情况 除原发性高血压以外的18个CVD数据集,平均年龄是56.47±8.09岁,收缩压中位数均为136.0mmHg,高血压病史均>25%。原发性高血压数据集平均年龄54.28±8.11岁,收缩压中位数为126.2mmHg。 2.基线数据相关性分析 19个CVD数据集中,发病组的平均年龄、收缩压、舒张压、胱抑素C水平均高于未发病组。Logistic回归分析显示,年龄优势比(Odds Ratio,OR)≥1.04;收缩压OR在1.01左右;CVD标准多基因风险评分(Polygenic Risk Score,PRS)OR≥1.03;胱抑素C与CVD发病风险呈正相关(OR≥1.82)。 3.机器学习建模与可解释性分析 基于19个CVD数据集,构建了 823个独立的风险预测模型。每个数据集的最佳预测模型的AUC值为0.68-0.84。对以下5种CVD模型重点分析: 3.1 心力衰竭预测模型分析结果 模型AUC值为0.84。年龄、接受治疗或服用药物次数、胱抑素C的影响较大(平均SHAP值分别为-0.1266、-0.0852、-0.0316),标准差大(SHAP值标准差分别为0.4849、0.2273、0.2418),说明个体差异大。 3.2 心房颤动和扑动预测模型分析结果 模型AUC值为0.81。房颤标准PRS平均SHAP值为0.0229,是最显著的风险因素。在不同年龄段,年龄对心房颤动和扑动发病风险的贡献程度变化很大(SHAP值标准差0.6897)。治疗或用药次数较多的病例发病风险较低(平均SHAP值-0.0103,SHAP 值中位数-0.0625)。 3.3 原发性高血压预测模型分析结果 模型AUC值为0.81。除收缩压、舒张压外,年龄是最重要的预测因素(平均SHAP值-0.0167),接受治疗和服药情况、遗传因素也是重要预测因素。 3.4 心绞痛预测模型分析结果 模型AUC值为0.77。年龄对心绞痛发病风险的正向影响最为显著(平均SHAP值0.0435,中位数0.1438)。冠状动脉疾病的标准PRS平均SHAP值-0.0156,标准差0.2163,说明遗传因素对心绞痛发病影响的个体差异较大。 3.5 慢性缺血性心脏病预测模型分析结果 模型AUC值为0.79。年龄增长普遍增加发病风险(SHAP值中位数0.0415)。冠状动脉疾病的标准PRS和CVD标准PRS均显示增加发病风险。 结论 本研究基于高维度、大规模人群样本数据,建立了覆盖19种CVD的10年发病风险预测模型。研究发现,年龄、收缩压、胱抑素C和PRS在各类CVD发病事件中具有显著预测价值。其中,年龄在所有CVD预测中均表现出较强的预测影响,PRS、收缩压和胱抑素C对缺血性心脏病、心力衰竭等疾病预测结果的影响更突出。