首页|基于深度强化学习的多智能体对抗算法研究

基于深度强化学习的多智能体对抗算法研究

薛晋涛

基于深度强化学习的多智能体对抗算法研究

薛晋涛1
扫码查看

作者信息

  • 1. 电子科技大学
  • 折叠

摘要

随着现实世界中决策任务的复杂化,多智能体对抗场景广泛出现于各个领域,如机器人作战、棋类比赛、军事决策、股票交易以及游戏AI竞技等,而多智能深度强化学习作为应用于多智能体对抗场景的代表性算法,逐渐成为研究人员关注的热门领域。然而,多智能体深度强化学习在应用于对抗场景时仍面临着诸多挑战,其中包括多智能体动作状态函数估值偏差大、智能体动作空间复杂,训练样本利用率低,信贷分配不合理等挑战。如何采用合理的方式对相关问题进行改进,已成为多智能体深度强化学习在对抗场景的热门研究方向。 针对多智能体的动作价值函数存在估值偏差以及智能体间信贷难以分配两个问题,本文结合现有的深度强化学习和图神经网络算法,在多智能体对抗场景中开展了相关研究。本文以SMAC仿真实验平台作为算法测试环境,实验中选取多智能体对抗领域典型的Qmix算法作为基线研究算法,主要工作内容如下: (1)针对多智能体的动作价值函数存在估值偏差的问题,本文提出一种改进的ADP-mix算法。在传统Qmix算法网络结构的基础上,本文结合了抽象动态规划的思想,使用值迭代的方式改进其单个智能体的策略训练网络DRQN,并对其最终的损失函数加以修正,以此促进智能体间的协同合作并提升算法最终的训练效果。在SMAC仿真实验平台中进行的实验表明,在Qmix基线算法的基础上,本文提出的ADP-mix算法可以有效的对多智能动作价值函数存在估值偏差的问题进行优化,在诸多仿真场景中算法的最终胜率和回报都有更优的表现,算法性能得到提升。 (2)针对智能体间的信贷分配问题,本文在ADP-mix的基础上,提出一种改进的AG-mix算法。本文通过结合图神经网络的方式,对ADP-mix的混合网络进行了改进,首先通过GINE图神经网络加强了算法对Q函数的利用率和对联合价值函数的拟合能力,并结合自注意力机制计算每个智能体对联合价值的贡献度,以此对多智能体间的信贷分配问题进行优化。最后在SMAC仿真实验平台的实验表明,本文提出的AG-mix算法可以有效优化原算法存在的信贷分配问题,在诸多仿真场景中算法的最终胜率和回报都有更优的表现,算法性能进一步提升。 (3)针对基础版的SMAC仿真实验平台在实际使用时存在的平台使用时间成本较高、可视化手段不完善、数据保密性差等诸多问题,本文设计了SMAC仿真实验辅助平台。在原平台的基础上新增了实验配置管理、算法性能可视化、用户数据加密等功能模块,为研究人员提供更加稳定高效的算法性能测试服务。

关键词

多智能体对抗算法/深度强化学习/抽象动态规划/图神经网络

引用本文复制引用

授予学位

硕士

学科专业

电子信息

导师

凡时财

学位年度

2023

学位授予单位

电子科技大学

语种

中文

中图分类号

TP
段落导航相关论文