基于深度强化学习的无桩型共享单车运力调度方法研究

张昕源¹

扫码查看

作者信息

1. 同济大学
折叠

摘要

城市共享单车出行存在天然的双向不均衡性，导致单车分布极化。共享单车系统在长期使用后，用户需求的时空分布与共享单车的时空分布逐渐偏离，会出现配置失衡的问题，降低了共享单车系统的服务水平。在此背景下，如何构建科学的优化调度模型，制定高效的组织管理方案，是当前备受关注且亟需解决的研究课题。国内外已形成一定研究成果，然而，这些成果大部分都是定桩型共享单车及静态调度的简单延伸，未充分考虑无桩共享单车及动态调度的特征，存在一定提升空间。本文具体研究工作包括以下几个方面：（1）对强化学习理论在目标场景的可行性进行了研究。马尔科夫相关理论是解决时间序列问题的有力数学工具，但在共享单车调度领域，并没有过深入的相关研究。本文针对这一空白的研究方向，验证了共享单车系统的状态转移过程满足马尔科夫性，单一调度车辆配置下的共享单车动态调度问题属于马尔科夫决策过程，并研究了适用于该问题的基于深度强化学习的优化方法。（2）构建了研究无桩型共享单车动态调度问题的多智能体仿真系统。从定桩型共享单车系统向无桩型共享单车系统转变的过程中，用户的选择行为将发生改变，如果在初始区域没有找到单车，用户可能会移步去相邻区域再次寻找。本文创新性地在共享单车调度问题中考虑这一类需求。在设定用户和调度车辆两种智能体的行为规则基础上，提出了仿真系统完整的运行流程，并使用上海市杨浦、虹口区共享单车历史出行数据对系统参数进行标定，最后验证了仿真系统功能的完备性和合理性。（3）提出了适用于多调度车辆的深度强化学习算法。多调度车辆配置下的无桩型共享单车调度问题属于多智能体强化学习问题，难以使用传统的强化学习算法优化。本文创新性地引入“影子环境”概念及一些数据预处理方法，将单一调度车辆从车队中抽离，将多调度车辆的问题转化为多个单一调度车辆的问题，保证了马尔科夫性。（4）验证了基于深度强化学习的无桩型共享单车动态调度算法的有效性。本文设计了两种调度场景，日间调度和夜间调度，用于对比深度强化学习算法以及两种典型的传统调度算法。算例结果表明，本文所提出的深度强化学习算法在两种场景下可以取得近似于全局优化93%及97%的性能，且相比求解全局优化模型仅需要极短的决策时间，适合于动态调度场景。

关键词

城市交通运输经济/无桩型共享单车/运力调度/深度强化学习

引用本文复制引用

授予学位

硕士

学科专业

交通运输工程

导师

李兴华

学位年度

2020

学位授予单位

同济大学

语种

中文

中图分类号

段落导航