摘要
预测交通出行方式选择是预测交通需求的至关重要的部分,并且也是非常具有挑战性的任务。在现有的预测出行行为研究中,已经有很多研究学者应用不同的理论概念和模型方法对其进行了研究。近几年,随着人工智能技术的飞速发展,越来越多的研究学者开始应用机器学习方法来预测交通出行行为,其中类关联规则模型因其在模型可解释性方面的优势而得到了应用。类关联规则模型虽然已经被应用到预测交通出行方式选择研究,但是如何应用所获得的海量规则准确的预测人们的出行方式选择仍然是一个非常大的挑战。针对此问题,本文分别从属性层面和规则层面对类关联规则模型进行改进,构建了三个新的类关联规则出行方式选择预测模型,以期能够使类关联规则模型更好的应用到交通出行行为预测领域。相关工作如下: (1)为了解决传统的基于最高优先级类关联规则的预测模型对出行方式选择行为预测准确率较低的问题,从属性层面出发,基于信息增益提出一个新的类关联规则预测模型。在该模型中,首先基于FP-Growth算法从数据中提取频繁项集,并从这些频繁项集中挖掘出满足最小支持度和最小置信度的类关联规则。其次,基于悲观错误率最小的概念对这些规则进行剪枝,从而获得非冗余类关联规则。然后,基于最高优先级类关联规则的概念,应用信息增益来进一步生成新的规则,从而构建了一个新的出行方式选择预测模型。为了验证该模型的性能,应用出行调查数据,通过十折交叉验证的方法,将所提出的基于信息增益的类关联规则预测模型(ClassAssociationRulesbasedonInformationGain,CARIG)与一般的类关联规则模型(Class-basedAssociationrules,CBA)、决策树模型(DecisionTrees,DT)以及多项Logit模型(MultinomialLogit,MNL)进行对比分析。结果表明,所提出的基于信息增益的类关联规则预测模型在出行方式选择预测方面表现出了优异的预测性能,这说明应用信息增益来进一步生成新的规则对提高模型预测准确率是至关重要。 (2)类关联规则虽然已经作为一个具有不错的预测性能的机器学习方法被应用到出行方式选择预测,但是其预测准确率和模型结果的分析方面都需要进一步深入研究。本文基于CARIG模型提出了四个基于权重的类关联规则预测模型,分别是只基于信息增益的关联规则预测模型(ClassAssociationRulesbasedonInformationGaininTwo-stage,CARIGIG)、只基于基尼不纯度的关联规则预测模型(ClassAssociationRulesbasedonGiniImpurityinTwo-stage,CARGIGI)以及同时基于信息增益和基尼不纯度的两个类关联规则预测模型(ClassAssociationRulesbasedonInformationGainintheFirst-stageandGiniImpurityintheSecond-stage,CARIGGI,ClassAssociationRulesbasedonGiniImpurityintheFirst-stageandInformationGainintheSecond-stage,CARGIIG)。所提出的模型就人们潜在的出行行为决策的分析方面给出了理论依据。在该模型中,首先基于FP-Growth算法从训练数据集中获取符合要求的频繁项集,从这些频繁项目集中通过最小支持度和最小置信度过滤出符合要求的类关联规则,同时提出了一个新的规则权重的计算方法,为每条规则计算权重。其次,基于悲观错误率最小的概念,将规则的权重作为规则剪枝的新指标对规则进行剪枝,从而获得非冗余类关联规则。再次,应用非冗余规则构建了4个新的基于权重的出行行为预测模型。在此阶段,应用信息增益、基尼不纯度和频繁规则集提出了一个新的变量水平对不同出行方式选择的相对重要性的计算方法,从而应用变量水平相对重要性更加透彻地分析出行者的出行行为。最后,将四个模型进行集成以其平均预测结果作为最终的类关联规则的最终预测结果。应用十折交叉验证的方法,将所提出的模型与CARIG模型、CBA模型、DT模型以及MNL模型进行了比较,结果表明,所提出的模型的预测性能优于上述所提到的其它预测模型,这说明所提出的规则的权重对提高模型预测准确率有非常重要的作用。所提出的模型除了可以用规则本身直接分析出行行为外,它还可以应用变量水平相对重要性去分析出行行为。 (3)类关联规则方法在出行行为研究中表现出了很好的性能,但是就其预测准确率方面,其还有一定的改进空间。基于此,从规则层面出发,本文提出了一个新的规则融合方法来构建一个新的类关联规则预测模型(ClassAssociationRulesbasedonaNewRuleMerging,CARM),应用这个新的规则融合方法来提高所构建模型的预测准确率。首先,基于FP-Growth算法和悲观错误率最小的概念来获得构建模型所需的非冗余类关联规则。其次,应用非冗余类关联规则构建出行预测模型。在此过程中,基于最高优先级规则,将训练样本与非冗余规则进行匹配,对于那些预测时会出现错误的规则,则应用新提出的规则融合方法将该规则的条件与位于该规则之后第一个可以将出行样本预测正确的规则相融合,从而获得新规则,这是所提出模型的改进部分,对提高模型的预测准确率非常重要。最后,将所提出的模型与CBA模型,CARIG模型,DT模型以及MNL模型进行比较,结果表明,就准确率而言,所提出的模型优于上述其它预测模型,这说明所提出的规则融合方法可以有效的提高预测模型的准确率。 通过所构建的三个模型发现属于火车的类关联规则要比其它类的类关联规则的优先级高,这就会使一类出行者在一定条件下更倾向于选择火车作为出行方式,这可能与铁路部门的火车运营策略有关,如推出多种不记名出行套餐来降低出行者的出行成本,当出行距离一定时,使得火车对出行者更加有吸引力等。 综上所述,本文所提出的预测模型在出行行为研究中不仅给出了高的预测性能,而且就潜在的出行行为决策过程中的分析方面也给出了合理的解释。在复杂的交通条件下,本文为交通出行行为的研究提供了一定的参考价值。