摘要
有害藻华(Harmful Algal Blooms,HABs),作为主要的海洋环境灾害之一,会导致海洋生态系统遭受严重破坏,甚至危及人类健康。我国海岸线长达18000多公里,海洋资源尤为丰富,对于国家发展有着重要的战略和经济学意义。近年来,我国沿海有害藻华爆发频率和规模日益加重,对海洋环境、社会经济、甚至是民生健康均造成了巨大危害。因此,对有害藻华的预报和治理迫在眉睫。鉴于海洋有害藻华的爆发过程具有高度非线性,传统的生态动力学模型以及统计学方法难以对其做出准确预测。本文基于机器学习技术,通过特征及模型选择,对有害藻华的关键影响因素分析及其浓度预测问题进行了研究,主要研究内容叙述如下。 首先,选取了国家海洋局北海分局的烟台监测中心以及美国Scripps监测站的数据作为研究对象,基于特征选择技术,采用完全搜索的方法对所有特征子集以及不同的模型进行分析,随后基于GBDT模型计算得到与有害藻华爆发关系最密切的环境因素。 其次,针对实验中有害藻华浓度缺失问题,基于选择的特征子集及GBDT模型,对完整的实验数据进行了缺失数据填补。最后,针对补全后的数据,使用GBDT结合特定的输入特征,对浮游植物浓度提前一周及两周进行预测,实验结果表明,该方法可以提前一周或两周基本预测出浮游植物浓度的变化趋势。 另外,由于不同环境下表现最优的模型可能不同,为进一步保证模型泛化性,借鉴集成学习的思想,基于Stacking策略将多个模型组合为元模型,使得组合后的模型具有较强的泛化性。 论文采用完全搜索的方法以确保得到预测效果最优的特征子集,从而进一步分析其与有害藻华浓度之间的关系,并对实验以及预防提供指导帮助。通过特征以及模型选择,可以提前一周至两周对有害藻华浓度进行预测,进而提前对有害藻华爆发进行预警。基于Stacking集成算法的融合模型保证了不同实验数据的模型均具有较强的泛化性及学习能力。