国家学术搜索
登录
注册
中文
EN
首页
|
数据驱动的时间序列分解集成预测及应用研究
数据驱动的时间序列分解集成预测及应用研究
引用
扫码查看
点击上方二维码区域,可以放大扫码查看
原文链接
NETL
中文摘要:
农业工程领域存在大量生产型及流通型时间序列数据,如温室大棚或大田的各类传感器感知的时间序列数据、水土保持或流失的时间序列数据、农产品产量或物流的时间序列数据、农产品现货或期货交易价格的时间序列数据等。深入分析其变动规律并进行科学预测,可为农业生产和流通提供准确高效的信息服务,促进农业的健康和可持续发展。传统的时间序列预测方法主要基于单一模型,以统计建模的方法进行预测。近年来,分解集成预测方法论成为解决复杂时间序列建模的现代系统工程学方法,通过“时序分解、单项预测、集成预测”三个步骤,有效提高预测精度。针对该方法论中存在的具体问题,本文在数据驱动建模思想的指导下,综合运用智能优化和机器学习算法,将相关难题转化为分类及优化问题,探讨构建一个与时间序列数据特征相匹配的预测建模流程。考虑到农产品的价格形成及变化是农业供给侧结构性改革的重要一环,本文以农产品价格时序为研究对象,验证方案的有效性,本文开展的研究工作及取得的主要成果体现在以下四个方面。 (1)数据驱动的时序分解算法优化研究。时序分解是分解集成预测的第一步,通过分解技术,将复杂时间序列转化为多条相对简单且规律明显的子序列。经验模态类分解算法(Empiricalmodedecomposition,EMD)是当前应用较为广泛的瞬频分解算法,但端点效应及模态混淆问题一定程度上影响其分解效果。本文提出一种兼具镜像对称和波形匹配的组合延拓方法以抑制端点效应,从而实现依据研究样本的数据波动形态,自适应延拓原序列,最大程度保留原时序的数据特征。进一步,以排序熵(Permutationentropy,PE)作为子序列复杂度的度量指标,结合快速傅里叶变换技术,依据子序列复杂度的高低实现对子序列的多尺度精准分解,以解决模态混淆问题。信号仿真实验结果证实,上述两种优化方法,均能有效提高经验模态类分解算法的分解性能。 (2)数据驱动的预测模型自适应选择研究。单项预测模型选择是否恰当直接影响最终集成预测效果。当前研究通常以学者的主观经验或文献研究结果作为选择依据,缺少从预测模型的数据适用性视角出发的考量,导致模型误选问题。本文借鉴元学习思想,构建一个基于时间序列统计特征的预测模型自适应选择分类器,使用具有良好分类性能的随机森林(Randomforest,RF),学习时序统计特征与模型预测精度之间的映射关系,实现依据时序数据的统计特征自动匹配最佳预测模型的目标。此外,结合多元回归分析技术,筛选对于模型预测精度具有较高解释性的时序特征作为分类器输入,进一步提高分类器性能。基于M3数据集的实验结果表明,改进后的分类器将原始18个输入特征减少为9个,不仅有效减少分类器的训练时间,还能提高分类器的分类正确率及平均预测精度。 (3)数据驱动的集成预测研究。种类繁多的单项预测模型为集成预测提供了丰富的备选模型池,但也带来一个难题,选择哪些模型进行集成以获得最终结果?本文以各单项预测模型蕴含的信息量为依据,邻域互信息为度量指标,最大化备选模型与已选模型集合的相关性且最小化已选模型之间的冗余度为优化目标,设计最优子集筛选算法。针对算法不同迭代次数得到结果不同的问题,运用布谷鸟搜索(Cuckoosearch,CS)算法优化邻域控制参数,对最优子集筛选算法进行二次改进。考虑到公众关注(publicconcern)是导致价格波动的重要因素,且网络搜索数据能及时反映公众关注的变化程度,进一步探讨融合网络搜索数据的集成预测方法。 (4)实证研究。以我国农产品市场的典型产品(猪肉、鸡蛋、黄瓜、西红柿)为研究对象,以水平及方向预测精度为评价标准,验证数据驱动的分解集成预测方法的有效性及适用性。实证结果表明,改进后的时序分解算法能有效提高农产品价格预测性能,且对于不同类型的预测模型均具有普适性;基于时序特征的预测模型选择分类器,能有效规避未知情境下的模型选择风险,与简单平均策略相比,具有较优的水平及方向预测精度;基于邻域互信息的集成预测策略能够筛选出最佳集成子集,实现对不同模型预测结果的充分利用;融合网络搜索数据后,能够进一步提高农产品价格预测性能。
收起全部
展开查看外文信息
作者:
凌立文
展开 >
关键词:
农产品价格预测
数据驱动
时序分解
模型选择
集成预测
授予学位:
博士
学科专业:
农业电气化与自动化
导师:
张大斌
学位年度:
2020
学位授予单位:
华南农业大学
语种:
中文
中图分类号:
F3