首页|基于机器学习的湖州市流感样病例预测预警研究

基于机器学习的湖州市流感样病例预测预警研究

徐澳

基于机器学习的湖州市流感样病例预测预警研究

徐澳1
扫码查看

作者信息

  • 1. 复旦大学
  • 折叠

摘要

流行性感冒(Influenza),简称流感,是由流感病毒所致的一种急性呼吸道疾病,传染性极强。其中由甲型流感病毒引起的流感可造成全球范围的大流行。流感虽大多为自限性,但其传染性强,人群普遍易感,且病愈后体内抗体存在时间短,可多次发病,同时在老弱病残等自身免疫力较低的人群中有一定的重症甚至死亡风险。此外,流感病毒变异速度快,导致流感疫苗保护效果持续时间短,这也使得流感的防治面临巨大的挑战。因此,根据流感的流行特点,建立有关流感的预测预警模型对流感的防控至关重要。我国目前的传染病自动预警系统(ChinaInfectiousDiseasesAutomated-alertandResponseSystem)通过对流感样病例(InfluenzaLikeIllness,ILI)症候群的监测,以流感样病例数、流感病例阳性检出率和流感样病例百分比等指标来综合反映流感的流行强度。并以此对未来流感可能的暴发进行预警。但随着全球气候变化加剧、信息化社会的到来等因素的影响,传统流感监测预警体系存在着缺乏多维度因素的支持、预测预警方法过旧、运行成本高等不足,已难以适应全球复杂的变化。此前也已有研究对流感的预测预警模型进行讨论,但大多数研究所使用的算法单一,且输入因素局限于历史发病数据和气象因素。因此,纳入更多数据作为输入因素、使用更为先进的算法为基础建立模型,以探索更加精准高效的预测预警模型势在必行。 本研究利用2015-2019年湖州市ILI监测数据建立数据库,对其流行特征进行描述性分析,同时对包括气象因素与污染物在内的环境因素与ILI流行之间的关系进行探讨,然后使用机器学习相关算法,结合环境数据和症状监测数据对ILI的发病情况进行预测,最后选用最优预测模型的预测值探究预警阈值的最优设立方法,以期为今后有关部门制定和完善对ILI的防控措施提供客观证据。 [目的](1)对2015-2019年间浙江省湖州市ILI发病数及其影响因素的流行病学特征进行描述性分析;(2)探究环境因素对ILI发病的影响及其滞后效应;(3)通过区分不同输入、输出因素以及模型所依赖的算法分别建立模型,找到预测效果最佳的模型;(4)使用所建立的最佳模型探究设立预警阈值的最佳方法,以对ILI发病进行预测预警。 [方法]收集2015-2019年间浙江省湖州市ILI周发病数资料和环境数据资料,建立数据库并进行描述性分析,了解湖州市ILI的流行趋势及其重点发病人群;使用DLNM分析相关环境因素与ILI发病之间的非线性关联及滞后效应,计算其RR值及滞后时间;利用ILI发病数数据,通过区分输入、输出因素,使用SVR和LSTM建立12种ILI预测模型并对其预测精度进行比较;选取最优预测模型,使用移动百分位数法及累积和控制图法对预警阈值的最佳设立方法进行探究。 [结果](1)2015-2019年间湖州市共报告ILI病例156078人次,平均周发病数为598人次,ILI%为3.90%。其发病呈现明显的季节性,主要发病高峰出现于冬季(12月-次年2月)。从年龄分布来看,14岁以下儿童占ILI总就诊人数的九成以上,其中0-4岁人群102661例(65.8%)、5-14岁人群39652例(25.4%)、15-24岁人群3107例(2.0%)、25-59岁人群8452例(5.4%)、60岁及以上人群2106例(1.4%)。2015-2019年,湖州市实验室共送检流感样病例10629例,送检率为6.8%。其中阳性病例1637例,阳性率仅为15.4%。从流感病毒亚型来看,整体呈现以甲型H3N2和H1N1亚型为主,乙型Yamagata和Victoria亚型交替流行的形势,且每年主要流行病毒亚型不尽相同。(2)2015-2019年湖州市环境因素中,各污染物的周平均值均表现出一定周期性,而气象因素中除日均气温为夏季高温、冬季低温外,其他因素均无明显周期性。在对ILI发病数与各因素进行相关分析后发现,与ILI发病呈正相关的因素包括:胸闷、鼻塞、喷嚏、痰、头痛、畏寒、流涕、寒战、AQI、PM2.5、PM10、SO2、NO2、O3、CO及每日最大温差,呈现负相关影响的因素包括日均气温及日照时长,与ILI发病相关性较弱的因素包括乏力、恶心、平均风速、最大风速、降雨量及平均相对湿度。在剔除自相关性较强的因素后,被选择纳入后续的模型进行进一步研究的相关因素包括胸闷、鼻塞、喷嚏、痰、头痛、畏寒、流涕、寒战、PM2.5、SO2、NO2、O3、每日最大温差、日均气温及日照时长。(3)将相关环境因素纳入DLNM后得出低平均温度(0℃)和低日照时长(0h)在滞后0-2周时,ILI发病风险增加,并分别在滞后1周(RR=1.367,95%CI:1.085-1.723)和2周(RR=1.235,95%CI:1.059-1.440)时发病风险最大。高平均温度(30℃)滞后0周时发病风险最大(RR=1.402,95%CI:1.157-1.699)。PM25与SO2的最大发病风险分别在滞后0周和1周时。(4)使用SVR及LSTM构建ILI的预测模型并进行拟合,结果显示基于ILI进行预测的曲线较基于ILI%的预测曲线吻合度较高,时间跨度为2015-2019年时,LSTM预测精度远高于SVR,而当时间跨度为2017-2019年时,SVR预测精度较高。此外,症状监测数据能显著提高模型的预测精度。在基于SVR建立的6个模型中,效果最好的是2017-2019年基于ILI的预测模型(输入因素包含症状监测数据),其R2达到0.917,均方根误差(RootMeanSquareError,RMSE)和平均绝对百分比误差(MeanAbsolutePercentageError,MAPE)分别为57.643及0.076。在基于LSTM建立的6个模型中,效果最好的是2015-2019年基于ILI的预测,其R2达到0.966,RMSE和MAPE分别为39.646及0.061。(5)选用预测效果最好的模型,即2015-2019年湖州市基于ILI的LSTM预测模型,结合移动百分位数法与累积和控制图法来探索预警阈值的建立。结果显示移动百分位数法的最佳预警阈值为以(x)+2s为流行标准的P60,其灵敏度、特异度和曲线下面积(AreaUnderCurve,AUC)分别为100%、68.9%和0.844,累积和控制图法的最佳预警阈值为以最大实验室阳性检出率的40%为流行标准的H=3σ时的C2,其预警效果较佳,灵敏度、特异度和AUC分别达到86.7%、94.4%和0.906。 [结论](1)2015-2019年湖州市流感样病例发病呈现明显的季节性,主要发病高峰出现于冬季(12月-次年2月)。主要发病人群为0-4岁年龄组人群,其次为5-14岁人群。整体呈现以甲型H3N2和H1N1亚型为主,乙型Yamagata和Victoria亚型交替流行的形势。(2)环境因素中,高温(30℃)、低温(0℃)、低日照时长(0小时)、高浓度PM2.5(>20μg/m3)和高浓度SO2(>15μg/m3)均会增加ILI的发病风险。其中高温和高浓度PM2.5的影响主要体现为即时效应,而SO2的影响可持续一周,低温和低日照时长的影响则可持续2周以上。(3)2015-2019年湖州市基于ILI的LSTM预测模型为最佳预测模型。基于ILI的预测模型精度高于基于ILI%的预测模型;SVR在短期预测上精度较高,而在长期预测模型中,LSTM的优势明显;症状监测数据可显著提高预测模型的精度。(4)移动百分位数法的最佳预警阈值为以(x)+2s为流行标准的P60,累积和控制图法的最佳预警阈值为以最大实验室阳性检出率的40%为流行标准的H=3σ时的C2,综合比较后,累积和控制图法预警效果较佳。LSTM、累积和控制图法的预测预警效果较好,可作为ILI及其他传染病建立预测预警模型时的经验参考。

关键词

机器学习/流感样病例/长短期记忆网络/预测预警

引用本文复制引用

授予学位

硕士

学科专业

流行病与卫生统计学

导师

王伟炳

学位年度

2023

学位授予单位

复旦大学

语种

中文

中图分类号

R3
段落导航相关论文