摘要
随着我国城市化快速推进,机动车保有量不断提高,城市交通的拥堵问题越来越严重。自适应交通信号能根据交通流的变化,实时调整交叉口信号配时,保障车辆有序通行,提高交通运输效率。近年来基于深度强化学习(Deep Reinforcement Learning)的交通信号控制方法结合深度神经网络和强化学习策略,适合处理交通场景中高维数据和连续状态的问题,可有效解决交通信号控制的无模型动态规划问题。现有的基于深度强化学习的交通信号控制方法,主要分为单智能体的方法和多智能体的方法。 本文首先以城市单交叉口的信号控制为研究对象,然后将研究对象扩大为城市路网中的多交叉口环境,利用分布式多智能体的方法进行多交叉口信号协同控制的研究。本文主要研究工作如下: (1)提出了基于DDQN的交通信号控制框架。首先,通过数学模型获取实时交通流和车辆排队信息,然后定义深度强化学习的状态、动作和奖励。基于相同的状态、动作和奖励训练DDQN和用于对比的DQN网络。最后在仿真单交叉口环境中进行实验,并与其他方法比较。结果显示,所提方法收敛速度更快且控制效果更佳。 (2)提出了一种基于多智能体集中学习的A2C_RTQL(Advantage Actor Critic model with Real-Time Queue Lengths)模型进行单交叉口信号控制。使用LWR冲击波原理得到单交叉口中各驶入车道的实时车辆排队长度并将其作为多智能体的模型的状态和奖励;然后将单交叉口环境拆分为多个并行环境,利用一个全局的智能体进行信号控制。仿真实验结果表明所提出的方法能够更细致的观测交叉口中的环境,在单交叉口控制中表现优于单智能体强化学习模型。 (3)提出了基于多智能体分布式学习的MA2C_AS(Multi-Agent Advantage Actor-Critic model with Adaptive Subgraphs)模型。首先利用自适应构造路网子图算法自适应地感知目标交叉口受其他路网交叉口信息的影响程度,去除无关节点并构造子图,减少远距离交叉口信息干扰;接着在子图中实现多智能体间数据共享,以协同自适应控制实现交通信号全局优化。仿真实验表明,在复杂路网及较小规模、简单交通流的情况下,控制效果优异。在两个不同路网场景中验证了算法具有良好的迁移和泛化能力。