基于强化学习的多智能体泛化性研究

Research on Generalization of Multi-agent Based on Reinforcement Learning

郭鑫 ¹王微 ¹青伟 ¹李剑 ¹何召锋¹

扫码查看

作者信息

1. 北京邮电大学,北京 100088
折叠

摘要

在多智能体强化学习算法的研究中,由于训练与测试环境具有差异,如何让智能体有效地应对环境中其他智能体策略变化的情况受到研究人员的广泛关注.针对这一泛化性问题,提出基于人类偏好的多智能体角色策略集成算法,该算法同时考虑了长期回报和即时回报.这一改进使得智能体从一些具有良好长期累积回报的候选行动中选择具有最大即时回报的行动,从而让算法确定了策略更新的方向,避免过度探索和无效训练,能快速找到最优策略.此外,智能体被动态地划分为不同的角色,同角色智能体共享参数,不仅提高了效率,而且实现了多智能体算法的可扩展性.在多智能体粒子环境中与现有算法的比较表明,该算法的智能体能更好地泛化到未知环境,且收敛速度更快,能够更高效地训练出最优策略.

关键词

深度强化学习方法/多智能体/未知环境/策略集成/泛化性/可扩展性

引用本文复制引用

基金项目

国家自然科学基金(62176025)

国家自然科学基金(62076232)

中央高校基本科研业务费专项(2021RC38)

中央高校基本科研业务费专项(2021RC39)

出版年

2023

计算机技术与发展

陕西省计算机学会

计算机技术与发展

CSTPCD

影响因子：0.621

ISSN：1673-629X

参考文献量4

段落导航