基于深度强化学习的生态城市交通信号控制研究

朱炉龙¹

扫码查看

作者信息

1. 华东交通大学
折叠

摘要

城市交通拥堵浪费大量通行时间，严重加剧了尾气排放，造成经济损失。通过合理规划道路网络的交通流量，交叉路口的交通信号控制（Traffic Signal Control，TSC）能够有效地缓解交通拥塞，因此在解决交通拥堵问题上，交通信号控制饰演了重要角色。由于交通信号控制本质上是序列决策问题，目前大多数研究利用多智能体强化学习（Multi-Agent Reinforcement Learning，MARL）模型进行交通信号控制研究的工作，由单个交叉路口的交通信号控制扩展到多个路口的全局控制，并取得了一定的成果。但是，现有的研究仍然存在不足。首先，现有的城市交通仿真环境不具备真实性，无法贴近真实世界的交通状况，导致无法保证实际道路测试的有效性。其次，现有的关于MARL的交通信号控制的大多数研究都集中在设计有效的通信方法，但忽略了智能体（Agent）在合作通信中如何互动的重要性，Agent之间的通信在MARL交通信号控制中的研究还不够深入。最后，现有的交通信号控制算法大多数处于经济利益考虑，极少考虑生态交通理念。针对上述问题，本文以单个交叉路口的交通信号控制研究为切入点，深入基于深度强化学习的多交叉路口交通信号控制研究，展开了详细的研究并取得了如下成果： (1)本文针对现有的交通仿真软件进行了对比，对SUMO仿真平台进行二次开发，包括构建合成和真实交通路网构建，然后基于交通管理部门公开的某时段交通流量数据，在SUMO中对真实的车流量进行设置，构建了贴近实际物理场景的大规模城市路网交通仿真环境，为实际交通信号控制问题在理论研究中提供实验保障。 (2)针对单交叉路口的TSC问题，本文提出了Fuel-ECO TSC模型以提高孤立交叉路口的通行效率。该方法利用深度强化学习（DeepReinforcement Learning，DRL）技术以实时感知高维的交通状态，并有效地调整交通信号控制策略。在Agent设计中描述了用于控制多目标交通信号的TSC策略，并且，基于改进的自适应交通信号控制策略，该方法为接近的车辆提供最佳的速度曲线，以平滑交通流并提高车辆的燃油经济性。 (3)针对多交叉口的TSC问题，本文构建了图协作Q学习交通信号控制模型（Graph Cooperation Q-Network Traffic Signal Control，GCQN-TSC），图协作注意力使得Agent可以根据动态的交通流量信息实时调整自己的关注度，在更大范围内快速有效地感知交通环境。并且，在该模型中提出了DGQ（Deep Graph Q-Learning）算法，提取不同交通场景的时空特征，为每个交叉口提供最优的信号相位。同时，本文创造性地把生态交通理念融入MARL交通信号控制中，致力于减少交通尾气排放。最后，利用SUMO交通仿真实验平台进行的实验结果表明，GCQN-TSC在平均排队长度和等待时间等性能指标上都优于其他交通信号控制方法。

关键词

城市交通/信号控制/深度强化学习/多智能体

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

严丽平

学位年度

2022

学位授予单位

华东交通大学

语种

中文

中图分类号

段落导航