首页|基于集成学习的航空公司乘客满意度预测

基于集成学习的航空公司乘客满意度预测

李皓宇

基于集成学习的航空公司乘客满意度预测

李皓宇1
扫码查看

作者信息

  • 1. 重庆大学
  • 折叠

摘要

在传统的航空公司乘客满意度分析中,常使用SERVQUAL量表,通过问卷的形式收集数据,并使用方差分析、t检验等传统统计方法进行分析。然而,在大数据时代,航空公司可以轻松获得大量的用户数据。使用传统方法可能会出现模型解释能力较差、依赖预设假设和无法持续优化等问题,在某些场景下已经不能胜任新时代的分析任务。机器学习模型可以有效地处理高维度和大样本的数据,极大地提高用户满意度预测的准确性。因此,业内需要更新航空公司的分析方法,建立更有效和更精确的评估模型。本文选择了能够高效处理高维数据的 XGBoost、LightGBM 和 CatBoost 集成学习模型,从数据和算法两个方面对模型效果进行优化,并根据建模结果给出提升乘客满意度的对策与建议。 本研究首先对概念进行讲解,阐述了机器学习模型概念,以及贝叶斯优化算法等相关理论。其次针对乘客用户满意度场景设计了建模算法流程。接着,以航空公司乘客满意度数据集为研究对象,对数据进行预处理并使用图文描述性统计方法描述了乘客的基本情况。在特征选择阶段,使用通过遗传算法优化XGBoost 模型进行特征筛选以获得最佳特征集合。在模型建立阶段,本文分别建立了 XGBoost、LightGBM 和 CatBoost 分类预测模型,并使用遗传算法进行超参数预调整。在模型优化阶段,本文分别从超参数优化和数据处理两个方面进行优化。首先使用贝叶斯优化对模型的超参数进行搜索,获得更好的模型效果;再使用多种重采样方法对数据进行处理,以减少不平衡数据的影响,最后得到最优模型。在文章末尾,本研究基于实证分析的结果,对乘客满意度影响较大的因素进行了深入探究,并提出了相应改进建议。 实证结果显示,在经过 GA-XGBoost 特征筛选,贝叶斯优化以及数据重采样操作后,模型的预测能力和泛化能力有显著提升。本文通过 GA-XGBoost 选取了 10 个最重要的变量,总的特征重要性占比达到 85.99%,兼顾了性能与效率,同时保证了模型的可解释性。经过贝叶斯优化和重采样处理后,CatBoost模型在预测乘客满意度方面表现优异,F1指标为0.9437,AUC指标为0.9880,其预测性能明显优于其他模型。因此,该模型具有重要的实际应用价值,并可为航空公司建立乘客满意度评估指标体系提供准确的细分市场预测能力。

关键词

航空公司/乘客满意度/贝叶斯优化/集成学习

引用本文复制引用

授予学位

硕士

学科专业

应用统计

导师

王开荣

学位年度

2023

学位授予单位

重庆大学

语种

中文

中图分类号

F5
段落导航相关论文