摘要
目的:在综合分析传染病时间序列特征的基础上,将分解集成思想引入到非平稳、非线性的传染病时间序列预测中,建立基于数据特征驱动的传染病时间序列分解集成模型,旨在构建一种适用范围广、预测准确性高的传染病流行趋势预测方法,为传统的传染病预测提供有益补充。 方法:首先,利用数据特征识别方法全面检验分析 2004年 6月~2021年 7月乙型肝炎(HBV)、肺结核(TB)、淋病(GNH)全国每月新发病例数原始时间序列的本质特征、模式特征,并从经典统计模型、机器学习模型中选择合适的单项模型方法建模预测;其次,利用互补集合经验模态分解(CEEMD)将原始时间序列分解为一系列模态分量,并检验其数据特征,根据模态分量的检验结果从差分自回归滑动平均模型(ARIMA)、支持向量回归(SVR)、广义回归神经网络(GRNN)等模型中选择合适的方法分别建模预测,集成各模态分量的预测结果,构建分解集成模型;最后,根据评价指标比较分析各单项模型与分解集成模型的预测误差。 结果:(1)乙肝月新发病数时间序列为非平稳、非线性序列,序列复杂性较低,存在周期性与突变性;肺结核月新发病数时间序列为平稳、非线性序列,序列复杂性较低,存在周期性;淋病月新发病数时间序列为非平稳、非线性序列,序列复杂性较低,存在周期性与突变性。(2)在乙肝的预测中,ARIMA、SVR、GRNN、CEEMD-ARIMA-SVR、CEEMD-ARIMA-GRNN 模型的平均绝对百分比误差(MAPE)分别为 7.10%、8.29%、6.26%、5.78%、5.56%;均方误差(MSE)分别为8.47×107、1.07×108、7.14×107、4.05×107、4.02×107;平均绝对误差(MAE)分别为6.75×103、8.32×103、6.02×103、4.74×103、4.72×103;CEEMD-ARIMA-SVR、CEEMD-ARIMA-GRNN 的模型改进率(IR)相较于单项模型提高了 11%~ 62%。(3)在肺结核的预测中,ARIMA、SVR、GRNN、CEEMD-ARIMA-SVR、CEEMD-ARIMA-GRNN模型的 MAPE分别为 9.17%、7.75%、11.76%、3.98%、8.54%;MSE 分别为 1.93×108、4.89×107、1.01×108、1.56×107、8.41×107;MAE 分别为 9.27×103、5.67×103、8.04×103、2.87×102、7.64×103;CEEMD-ARIMA-SVR、CEEMD-ARIMA-GRNN 的 IR 相较于单项模型提高了 4%~ 92%。(4)在淋病的预测中,ARIMA、SVR、GRNN、CEEMD-ARIMA-SVR、CEEMD-ARIMA-GRNN 模型的 MAPE 分别为 9.69%、8.38%、14.72%、3.52%、6.60%;MSE分别为 2.01×106、1.12×106、3.62×106、2.54×105、7.56× 105;MAE 分别为 8.92×102、8.27×102、1.47×103、3.90×102、7.26×102;CEEMD-ARIMA-SVR、CEEMD-ARIMA-GRNN 的 IR 相较于单项模型提高了18%~88%。 结论:(1)ARIMA、SVR、GRNN 三个单项模型对于复杂性较低的乙肝、肺结核、淋病月新发病数时间序列,预测效果相当。(2)相较于单项模型, CEEMD-ARIMA-SVR、CEEMD-ARIMA-GRNN 分解集成模型的预测精度均有较大改善。本文构建的基于数据特征驱动的分解集成模型能够提高乙肝、肺结核、淋病流行趋势预测的准确性。