traffic signal controldeep reinforcement learningproximal policy optimization(PPO)algorithmsurrogate objective functionstate feature vector
交通信号控制 深度强化学习 近端策略优化算法 代理目标函数 状态特征向量
国家自然科学基金山西省自然科学基金太原科技大学科技创新基金山西省基础研究计划
6207232520220302122114520212039202103021224272
2024