摘要
随着我国城市化进程的不断推进,城市道路交通拥堵、交通事故频发和秩序混乱等问题日益突显。为应对城市交通畅通、安全、规范的挑战,开展交通信号控制方法的研究显得格外重要。本文利用深度强化学习技术改进信号控制算法,分别构建了单交叉口控制模型和多交叉口信号协同控制模型,并在仿真系统中进行了验证,为解决城市交通问题提供了可行的技术方案,具有一定的实用和推广价值。本文的主要研究内容如下: 首先提出基于经典交叉口的单交叉口信号优化模型,定义了环境空间、状态空间、动作空间和奖励函数,提出基于深度强化学习技术的信号交叉口智能控制模型。使用离散化交通状态编码方法将交叉口进口道的车辆速度信息和位置信息转换为状态空间的二维矩阵,以车辆延误时间并考虑道路车辆排队长度和容量限制确定奖励函数;为增强DuelingDQN学习网络模型适用性,应用多指标线性加权组合计算奖励函数,提出实现探索因子动态变化的ε贪婪策略改进方法。 其次,将单交叉口的强化学习交通信号控制算法扩展至城市道路多交叉口交通信号控制,提出了一种基于协作式多智能体深度强化学习的城市多交叉口的交通信号协调控制方法。引入集中式训练、分布式执行的学习模式,并用协作关系下的多智能体强化学习算法Qmix训练模型中的决策神经网络,将每个交叉口设置一个智能体,每个智能体网络采取DuelingDQN结构,并加以改进使用LSTM网络,利用动作-观察历史以应对部分可观察场景,同时计算更为简便,以当前的观测(交通状态信息——速度位置矩阵等)和上一时间步的动作作为输入,得到局部Q值函数。之后由混合网络将每个智能体网络输出的局部Qi,以单调的形式混合组成联合的Qtot。只要满足单调性约束,就能保证使局部动作值函数取最大值的动作就是使联合动作值函数取最大值的动作,即最优联合动作和最优动作联合相同。 最后本文选取了重庆北碚区蔡家某区域路网,利用SUMO软件构建城市多交叉路口交通信号控制仿真系统,通过实际交通路网建模,利用深度强化学习交通信号控制算法在该系统上进行仿真实验。结果表明本文提出的多交叉口交通协同控制模型算法能有效减少城市交通的延误,提高路网车流的通行效率。