基于深度强化学习的网约车调度研究

王玉波¹

扫码查看

作者信息

1. 河北师范大学
折叠

摘要

随着智慧城市交通系统的发展，网约车平台如滴滴出行、神州专车等逐渐发展成熟。网约车因其方便快捷的高质量服务成为了人们日常出行的重要交通工具之一。但与此同时，网约车的调度困难也日益凸显，如何提高乘客与网约车司机的满意度，怎样为空闲网约车制定合理调度策略也成为了亟待解决的研究问题。传统车辆调度方法大多仅针对短期目标进行优化，这导致了调度策略短视的问题，无法实现对复杂交通环境的建模。本文针对现有方法的缺陷设计了基于深度强化学习(Deep Reinforcement Learning,DRL)的网约车调度模型，将空闲车辆的调度问题转化为马尔可夫决策过程，以得到具有预见性的长期调度策略，实现复杂交通环境下的车辆最优路径选择。本文主要研究工作如下: (1)本文提出了基于驾驶员决策的深度强化学习策略来实现单辆空闲网约车调度的Q-Net算法。由于乘客需求的不稳定性，网约车所服务订单终点的需求状态会影响下一阶段的调度效果，因此本文定义了当前收益与下一状态需求情况相结合的指标作为奖励函数且简化了动作范围以优化车辆调度决策。Q-Net模型通过评估网络(Eval Net)完成价值函数近似，使用网络结构相同的目标网络(Target Net)通过TD算法(Temporal Difference Learning)完成模型训练。仿真实验表明，该方案能够增加驾驶员收入，减少网约车巡航时间，为更多的乘客提供服务，从而有效提高交通网络运行效率。 (2)本文将Q-Net模型进行扩展，以多辆网约车作为主体研究对象，结合强化学习模型 AC(Actor Critic)框架与优先级调度算法(Priority-Scheduling Algorithm,PSA)提出了基于实时供需感知的多智能体深度强化学习车辆调度算法PRI-AC(Priority-Actor Critic Algorithm)。本文结合车辆的实时位置与可用状态、出行请求信息来进行可用车辆的调度，设计了结合不同动作下的车辆调度合理性与任务完成情况的奖励函数，通过主动调度可用空车到供需缺口更大的位置以最大限度地提高乘客的体验感。本文设置静态优先级指标以规划大规模车辆调度顺序，通过策略网络共享的方式进行同质智能体的训练，从而促进智能体间的协作。对比实验表明，本文所设计的网约车调度策略能够更好平衡交通网络的供需状况，在服务订单数量，增加驾驶员收入等方面优于其他模型。

关键词

网约车/车辆调度/马尔可夫决策/深度强化学习/订单匹配/供需平衡

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

魏志成

学位年度

2023

学位授予单位

河北师范大学

语种

中文

中图分类号

段落导航