基于双评论家的多智能体深度确定性策略梯度方法

Multi-Agent Deep Deterministic Policy Gradient Method Based on Double Critics

丁世飞 ¹杜威 ²郭丽丽 ¹张健 ¹徐晓¹

扫码查看

作者信息

1. 中国矿业大学计算机科学与技术学院江苏徐州 221116;矿山数字化教育部工程研究中心(中国矿业大学)江苏徐州 221116
2. 中国矿业大学计算机科学与技术学院江苏徐州 221116
折叠

摘要

在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这一问题,分别从理论和实验上证明了多智能体深度确定性策略梯度方法存在价值函数被高估.提出基于双评论家的多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient method based on double critics,MADDPG-DC)方法,通过在双评论家网络上的最小值操作来避免价值被高估,进一步促进智能体学得最优的策略.此外,延迟行动者网络更新,保证行动者网络策略更新的效率和稳定性,提高策略学习和更新的质量.在多智能体粒子环境和交通信号控制环境上的实验结果证明了所提方法的可行性和优越性.

关键词

强化学习/价值估计/双评论家/交通信号控制/多智能体深度确定性策略梯度

Key words

reinforcement learning/value estimation/double critics/traffic signal control/multi-agent deep deterministic policy gradient

引用本文复制引用

基金项目

国家自然科学基金(62276265)

国家自然科学基金(61976216)

国家自然科学基金(62206297)

国家自然科学基金(62206296)

出版年

2023

计算机研究与发展

中国科学院计算技术研究所中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心

影响因子：2.649

ISSN：1000-1239

被引量2

参考文献量8

段落导航