首页|基于不平衡数据集的航班延误分析

基于不平衡数据集的航班延误分析

刘梦晗

基于不平衡数据集的航班延误分析

刘梦晗1
扫码查看

作者信息

  • 1. 哈尔滨师范大学
  • 折叠

摘要

近年来,航空客运量在国内和国际的航班数量均在急剧增加.面对日益增加的航空运输需求,航班延误问题随之而来,随着乘客数量的增加,给航空公司的工作人员带来了巨大的挑战.因此,如何精准的预测航班延误、减少航班延误、降低航班延误造成的损失,逐渐成为了社会关注的问题. 目前预测航班延误情况的技术不胜枚举,比较主流的技术是通过机器学习方法对航班数据进行分析建模,以便准确预测航班延误,使航空公司和乘客能够提前做好准备.本文以美国运输统计局的2021年航班数据为例进行研究,对数据进行四种采样处理并建立集成学习预测模型,分析出影响航班延误的因素,研究结果对我国航班延误问题也有借鉴意义. 首先,本文对航班数据进行预处理,删除缺失值较多和相关性较高的特征变量,并将标签二值化处理.本文的数据集庞大,12个月共630余万条航班数据,故本文根据月份对原始数据集进行分层抽样,在确保质量的情况下以合理的方式进行采样.由于本文的数据集为不平衡数据集,因此研究中分别使用随机采样和SMOTE采样、欠采样和混合采样,为后续的建模提供数据支持. 其次,在对数据进行采样后,分别使用四种采样后的数据建立随机森林模型、CatBoost模型和LightGBM模型.但单一模型的算法是存在局限性的,为了提高模型预测的准确性,提高模型的精确度,本文引入了Stacking模型将多个子模型进行融合,对各个模型各取所长,结合每个模型的优势,建立Stacking融合模型.第一层的基学习器使用Bagging中的随机森林模型和Boosting中的CatBoost模型,第二层学习器算法为LightGBM模型,以发挥单一模型对不同特征变量的敏感度优势. 最后,分别使用准确率、召回率和AUC值等多个评价指标对上述建立的16个模型进行分析比较.通过对模型的评估分析,相较于其他单一模型,SMOTE采样后的Stacking融合算法的预测效果最佳.

关键词

航班延误/不平衡数据集/集成学习

引用本文复制引用

授予学位

硕士

学科专业

应用统计

导师

王涛

学位年度

2023

学位授予单位

哈尔滨师范大学

语种

中文

中图分类号

F5
段落导航相关论文