基于深度强化学习的城市道路交通信号控制建模与优化

崔铜巢¹

扫码查看

作者信息

1. 北京工业大学
折叠

摘要

城市交通信号灯作为交通系统控制的重要组成部分，其在调节交叉口交通流的通行次序上发挥了至关重要的作用。随着城市化进程的加快，车辆保有量屡创新高，而传统的信号控制设计大多固定周期、相位等交通信号参数，针对潮汐交通流或流量突变等不确定性因素时，控制效果往往差强人意。随着深度强化学习(DeepReinforcementLearning，DRL)领域的飞速发展，为解决交通信号控制问题提供了新的思路。本课题以交通信号策略优化为目标，对交叉口信号控制系统和DRL的算法模型进行了分析，结合强化学习理论，将交叉口信号控制器视为智能体，并引入了离散交通状态编码(DiscreteTrafficStateEncode，DTSE)方法，开展了基于DRL的信号策略优化研究，主要研究内容如下: 首先，研究了基于DRL的交通信号控制系统设计方案。选择控制系统设计参数，讨论与分析了信号控制的关键因素，如:相位、周期及绿信比。同时，展开了对信号控制评价指标的研究，确定了系统的控制目标，为实验部分有关信号控制系统的设计提供了理论依据。针对迭代策略，权衡了各种深度强化学习算法对信号控制的优势，对近端策略优化算法(ProximalPolicyOptimization，PPO)和深度Q网络（DeepQNetwork，DQN）方法的构成和迭代流程进行了探究，为控制系统的优化策略求解奠定了基础。其次，完成了交通信号控制系统的DRL建模与优化。该部分工作主要分为三个方面。首先，结合RL理论，对信号控制器三要素（状态、动作、奖励）进行了设计，避免信号控制器状态空间维度过低导致输出动作陷入局部最优，采用了DTSE方法定义了信号控制器的输入;然后，考虑PPO算法基于策略梯度优化速度更快的特点，设计了基于PPO算法的策略迭代方案;最后，针对区域交叉口信号协同优化的问题，引入了互相协作型方法，设计了基于PPO算法的多智能体协同优化策略。最后，开展了对路网交通信号控制的实验研究。针对北京市朝阳区西大望路与弘燕东路交叉口，以及丰台区五圈路与丰科路区域交叉口的分布特征和流量数据，利用交通仿真软件SUMO(SimulationUrbanMobility)进行了场景复现。为了探究不同DRL算法的设计优势，引入了基于DQN的信号控制方案，通过实验结果的统计和分析，可以得出，基于DRL的信号控制方案相比于定时控制方案更具优势，能够有效提高交叉口的服务水平，同时，在基于DRL算法控制方面，PPO比DQN算法的输出策略稳定性更高，控制结果更优。综合上述，本课题针对城市道路交叉口信号控制方案进行了探究，提出了控制系统设计方案，设计了基于DRL的交通信号优化控制策略，采用交通仿真软件SUMO进行了实验研究，通过分析与统计实验数据，证明了设计方法的有效性和可行性。

关键词

交通信号/深度强化学习/自动控制/PPO/SUMO/DTSE

引用本文复制引用

授予学位

硕士

学科专业

控制科学与工程

导师

张利国

学位年度

2021

学位授予单位

北京工业大学

语种

中文

中图分类号

段落导航