基于集合经验模态分解方法和深度学习算法对 COVID-19的预测分析

刘诗迪¹

扫码查看

作者信息

1. 重庆医科大学
折叠

摘要

目的目前，从2019年开始蔓延的突发流行病新型冠状病毒肺炎，损害人们健康，给各国的医疗系统和政府带来了巨大的压力。对于突发流行病的防控政策和医疗资源安排，需要一个好的预测模型来监测和评估疫情的发展趋势。本研究尝试性建立了长短期记忆模型来拟合疫情的趋势。在此基础上，为了提高预测模型的精度，本研究考虑将集合经验模态分解方法和长短期记忆模型结合，提出EEMD-LSTM组合模型，来拟合疫情的发展趋势。同时，本研究探讨了这两个模型的预测性能，以期在新型冠状病毒肺炎数据的基础上，为突发流行病预测建模提供一种新颖的，可能有效的组合模型思路。方法数据来自于HavardDataverse。利用2020年1月21日至2021年4月25日美国各州中疫情最严重的加利福尼亚州的数据，建立神经网络模型LSTM、EEMD-LSTM组合模型（集合经验模态分解和长短期记忆模型结合）和时间序列预测模型差分自回归移动平均模型（ARIMA）。组合思路为先将原始序列进行分解，然后分解后的序列分别拟合基础LSTM模型，最后将各自序列的预测结果相加得到最终的组合模型的预测结果。其中，80%的数据划分为训练集，20%为测试集测试模型预测效果。均方根误差(RMSE)，可决系数和平均绝对误差(MAE)用来多方面评估模型。结果结果表明，截至2021年4月25日，加利福尼亚州的每日新增病例整体上处于波动下降中且短期内没有出现新增病例清零。这也说明确诊病例数量仍会增加。2021年4月25日，LSTM模型预测加利福尼亚州有1866个新增确诊病例，而EEMD-LSTM预测结果为3590个新增确诊病例，ARIMA(1,1,2)模型预测结果为17070个新增确诊病例。LSTM、EEMD-LSTM和ARIMA(1,1,2)模型在测试集上的的均方根误差分别为2410.9180、2028.7391和12187.3036。LSTM模型在测试集上的可决系数和平均绝对误差分别为0.7940和1474.4771，EEMD-LSTM模型在测试集上的可决系数和平均绝对误差分别为0.8542和1663.9121，ARIMA(1,1,2)模型在测试集上的可决系数和平均绝对误差分别为0.6153和11353.2299。结论结果显示EEMD-LSTM组合模型一定情况下会比基础的LSTM模型更有优势。EEMD-LSTM模型和LSTM模型都要优于ARIMA(1,1,2)模型。测试集上的评估结果显示EEMD-LSTM组合模型的均方根误差和可决系数要优于基础LSTM模型。而且，EEMD-LSTM组合模型的预测异常情况更少，更稳定。建立的EEMD-LSTM模型可能适用于监测和评估疫情，为疫情防控提供定量分析证据，特别是防控宽松的情况。同时，EEMD-LSTM组合模型思路还可以尝试应用于其他流行病的预测。而且，模型的组合方式还可以尝试用其他的数据分解方法和参数优化方法等。

关键词

新型冠状病毒肺炎/疾病预测/深度学习/长短期记忆模型/集合经验模态分解

引用本文复制引用

授予学位

硕士

学科专业

应用统计

导师

雷迅

学位年度

2023

学位授予单位

重庆医科大学

语种

中文

中图分类号

段落导航