摘要
近年来,随着经济的发展和居民生活水平的提升,我国的机动车数量和驾驶员数量也在不断增加,道路交通出行成为了人们的主要出行方式之一。道路交通安全水平主要由行人和驾驶员、车辆和环境等因素共同决定,其中环境因素最为复杂多变。道路交通出行给人们的出行带来方便的同时,多变的行车环境也给人们的生命和财产带来了一些损失。因此,环境因素影响下的道路交通事故预测成为了道路交通安全领域重要的研究课题,也是提升道路交通安全水平的重要方式之一,在道路交通安全领域受到了国内外学者的广泛关注。 然而,现有的道路交通数据集存在类不平衡和特征相关性低的情况,会影响道路交通事故预测模型的预测准确性和泛化能力。此外,分析行车环境中各个影响因素对道路交通事故的影响同样十分重要,有利于降低道路交通事故的死亡率,提升道路交通出行的安全水平,但是现有的道路交通事故预测模型几乎是一个黑盒模型,存在模型可解释性差的问题,无法直观的发现影响道路交通安全的环境等因素。针对当前道路交通事故预测模型的预测精度低和模型可解释性差以及模型泛化能力低的问题,本文的主要研究内容如下: (1)本文首先基于SMOTEENN处理道路交通事故数据集中类不平衡的问题,处理完后得到正负样本数量较为均衡的数据集,接着基于皮尔逊相关系数分析特征和标签之间的关联性,进行特征选择。然后选择SHAP和XGBoost建立道路交通事故预测模型SHAP-XGB,基于XGBoost对道路交通事故进行预测,基于SHAP对整体预测模型、单个特征和单个样本进行可解释性分析,从而清楚的得到影响道路交通安全的环境因素以及其他影响道路交通安全的因素。 (2)传统的道路交通事故预测模型主要基于单一模型构建,单一模型具有构建简单,调试快捷等优点。然而,单一模型由于其自身特性,在较为复杂的数据集上,模型往往容易存在模型的泛化能力低的问题。针对这一问题,本文基于Voting和Stacking进行模型融合,使用多个“好而不同”进行融合从而得到预测精度更高,模型泛化能力更强的融合模型。在仿真实验中,本文选择KNN、Random Forest、XGBoost、LightGBM和AdaBoost分别构建道路交通事故预测模型,然后选取预测精度较高的模型Random Forest、XGBoost、LightGBM和AdaBoost进行模型融合,得到融合模型RXL-Voting、RXLA-Voting和XLAR-Stacking。实验结果表明,本文提出的融合模型在AUC和F1两种评估指标上相比基于单个算法建立的道路交通事故预测模型都有一定的提升。