摘要
通过机器学习算法和SHAP(shapley additive explanations)方法分析影响流感样病例(influenza-like illness,ILI)的主要因素,挖掘和流感相关的关键词汇,进行初步筛选,再通过分析这些关键词与ILI序列的时滞相关性,对筛选出的关键词进行二次过滤.首先使用关键词变量分别构建支持向量回归、XGBoost模型、随机森林回归;然后应用SHAP方法进行模型可解释性分析,探讨影响ILI的主要关键词;最后利用随机森林回归方法构建的预测模型具有最高预测性能,其平均绝对百分比误差MAPE是0.141.模型显示"流感疫苗副作用、流感疫苗、感康、流行性感冒、康泰克、感冒"是预测ILI值的重要影响因素.随机森林回归方法所构建的预测模型能够更准确地预测流感样病例值,结合SHAP方法可以对ILI值预测提供详细解释,有助于医疗机构制定有效的应急措施.
基金项目
国家自然科学基金(62106238)
省高等学校科技创新项目(2020L0283)
山西省基础研究计划(202203021212185)