信息技术与信息化2024,Issue(2) :3-6.DOI:10.3969/j.issn.1672-9528.2024.02.001

基于随机森林模型与SHAP算法的流感样病例影响因素分析研究

李进 魏艳龙 薛红新
信息技术与信息化2024,Issue(2) :3-6.DOI:10.3969/j.issn.1672-9528.2024.02.001

基于随机森林模型与SHAP算法的流感样病例影响因素分析研究

李进 1魏艳龙 1薛红新2
扫码查看

作者信息

  • 1. 太原师范学院 山西晋中 030619
  • 2. 中北大学 山西太原 030051
  • 折叠

摘要

通过机器学习算法和SHAP(shapley additive explanations)方法分析影响流感样病例(influenza-like illness,ILI)的主要因素,挖掘和流感相关的关键词汇,进行初步筛选,再通过分析这些关键词与ILI序列的时滞相关性,对筛选出的关键词进行二次过滤.首先使用关键词变量分别构建支持向量回归、XGBoost模型、随机森林回归;然后应用SHAP方法进行模型可解释性分析,探讨影响ILI的主要关键词;最后利用随机森林回归方法构建的预测模型具有最高预测性能,其平均绝对百分比误差MAPE是0.141.模型显示"流感疫苗副作用、流感疫苗、感康、流行性感冒、康泰克、感冒"是预测ILI值的重要影响因素.随机森林回归方法所构建的预测模型能够更准确地预测流感样病例值,结合SHAP方法可以对ILI值预测提供详细解释,有助于医疗机构制定有效的应急措施.

关键词

流感预测/百度指数/SHAP/支持向量回归/随机森林回归/XGBoost

引用本文复制引用

基金项目

国家自然科学基金(62106238)

省高等学校科技创新项目(2020L0283)

山西省基础研究计划(202203021212185)

出版年

2024
信息技术与信息化
山东电子学会

信息技术与信息化

影响因子:0.29
ISSN:1672-9528
参考文献量21
段落导航相关论文