首页|基于异步优势演员-评论家的交通信号控制方法

基于异步优势演员-评论家的交通信号控制方法

扫码查看
针对现有基于深度强化学习的交通信号控制方法的模型学习和决策成本高的问题,提出基于异步优势演员-评论家(A3C)算法的单交叉口交通信号控制方法。在模型输入端分别从交叉口和车道 2 个不同维度构建车辆权重增益网络,对采集的车辆状态信息进行预处理。设计新的奖励机制,提出融合车辆权重增益网络的A3C算法。基于微观交通仿真软件SUMO的仿真测试结果表明,相比于传统的交通信号控制方法和基准强化学习方法,所提方法在低、中、高 3 种不同的交通流量状态下,均能够取得更好的交通信号控制效益。
Traffic signal control method based on asynchronous advantage actor-critic
A single intersection traffic signal control method based on the asynchronous advantage actor-critic(A3C)algorithm was proposed aiming at high cost of model learning and decision making in the existing traffic signal control methods based on deep reinforcement learning.Vehicle weight gain network was constructed from two different dimensions at the input side of the model,namely intersections and lanes,in order to preprocess the collected vehicle state information.A new reward mechanism was designed and an A3C algorithm that integrated vehicle weight gain networks was proposed.The simulation test results based on the microscopic traffic simulation software simulation of urban mobility(SUMO)show that the proposed method achieves better traffic signal control performance under three different traffic flow conditions of low,medium and high levels compared with traditional traffic signal control methods and benchmark reinforcement learning methods.

traffic signal controldeep reinforcement learningA3Cweight gain network

叶宝林、孙瑞涛、吴维敏、陈滨、姚青

展开 >

浙江理工大学信息科学与工程学院,浙江杭州 310018

嘉兴大学嘉兴市智慧交通重点实验室,浙江嘉兴 314001

浙江大学工业控制技术全国重点实验室,智能系统与控制研究所,浙江杭州 310027

浙江理工大学计算机科学与技术学院,浙江杭州 310018

展开 >

交通信号控制 深度强化学习 A3C 权重增益网络

国家自然科学基金资助项目浙江省自然科学基金资助项目嘉兴市应用性基础研究项目浙江省尖兵领雁研发攻关计划资助项目工业控制技术国家重点实验室开放课题资助项目

61603154LTGS23F0300022023AY110342023C01174ICT2022B52

2024

浙江大学学报(工学版)
浙江大学

浙江大学学报(工学版)

CSTPCD北大核心
影响因子:0.625
ISSN:1008-973X
年,卷(期):2024.58(8)
  • 21