计算机技术与发展2023,Vol.33Issue(8) :9-13.DOI:10.3969/j.issn.1673-629X.2023.08.002

利用衍生特征预测新冠疫情的随机森林方法

Random Forest Model of Predicting Covid-19 with Derived Feature

龙铁 付宇笙 王文达 费宁
计算机技术与发展2023,Vol.33Issue(8) :9-13.DOI:10.3969/j.issn.1673-629X.2023.08.002

利用衍生特征预测新冠疫情的随机森林方法

Random Forest Model of Predicting Covid-19 with Derived Feature

龙铁 1付宇笙 1王文达 1费宁1
扫码查看

作者信息

  • 1. 南京邮电大学 计算机学院,江苏 南京 210003
  • 折叠

摘要

新冠疫情爆发以来,许多研究运用时滞动力学模型、传播动力学模型和机器学习模型对疫情进行分析,取得了一定的效果.然而由于不同国家和地区之间发展差异较大,数据不均衡,导致算法普适性较弱.随机森林(Random Forest)是一种基于决策树或回归树的集成学习模型,由多个Bagging集成学习技术训练得到的决策树或回归树投票来获得最终的结果.在分析数据集特性的基础上,该文将原本难以体现样本差异性的特征值进行变换和组合,衍生出新的特征值,并且根据新增特征值将原有数据进行分组.采用随机森林构建疫情预测模型,对各个分组数据集分别进行训练和预测.在随机森林模型中的实验表明,该方法能够有效提高新冠疫情预测准确率,对原本差异显著地区具备更好的适应性,同时很好地防止机器学习过拟合,能较好容忍噪声值和离群值,也给未来类似传染性疾病的预测提供了新的思路.

关键词

新型疫情/机器学习/随机森林/衍生特征/回归树

Key words

Covid-19/machine learning/random forest/derived feature/regression tree

引用本文复制引用

基金项目

国家自然科学基金(62072254)

南京邮电大学科研项目(NY218024)

出版年

2023
计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
参考文献量6
段落导航相关论文