基于不平衡数据集的航班延误分析

刘梦晗¹

扫码查看

作者信息

1. 哈尔滨师范大学
折叠

摘要

近年来，航空客运量在国内和国际的航班数量均在急剧增加.面对日益增加的航空运输需求，航班延误问题随之而来，随着乘客数量的增加，给航空公司的工作人员带来了巨大的挑战.因此，如何精准的预测航班延误、减少航班延误、降低航班延误造成的损失,逐渐成为了社会关注的问题. 目前预测航班延误情况的技术不胜枚举，比较主流的技术是通过机器学习方法对航班数据进行分析建模，以便准确预测航班延误，使航空公司和乘客能够提前做好准备.本文以美国运输统计局的2021年航班数据为例进行研究，对数据进行四种采样处理并建立集成学习预测模型,分析出影响航班延误的因素，研究结果对我国航班延误问题也有借鉴意义. 首先,本文对航班数据进行预处理,删除缺失值较多和相关性较高的特征变量,并将标签二值化处理.本文的数据集庞大，12个月共630余万条航班数据，故本文根据月份对原始数据集进行分层抽样，在确保质量的情况下以合理的方式进行采样.由于本文的数据集为不平衡数据集，因此研究中分别使用随机采样和SMOTE采样、欠采样和混合采样，为后续的建模提供数据支持. 其次，在对数据进行采样后，分别使用四种采样后的数据建立随机森林模型、CatBoost模型和LightGBM模型.但单一模型的算法是存在局限性的，为了提高模型预测的准确性,提高模型的精确度,本文引入了Stacking模型将多个子模型进行融合,对各个模型各取所长，结合每个模型的优势，建立Stacking融合模型.第一层的基学习器使用Bagging中的随机森林模型和Boosting中的CatBoost模型,第二层学习器算法为LightGBM模型，以发挥单一模型对不同特征变量的敏感度优势. 最后，分别使用准确率、召回率和AUC值等多个评价指标对上述建立的16个模型进行分析比较.通过对模型的评估分析，相较于其他单一模型，SMOTE采样后的Stacking融合算法的预测效果最佳.

关键词

航班延误/不平衡数据集/集成学习

引用本文复制引用

授予学位

硕士

学科专业

应用统计

导师

王涛

学位年度

2023

学位授予单位

哈尔滨师范大学

语种

中文

中图分类号

段落导航