摘要
随着近几年AlphaGo、AlphaStar的成功引起了强化学习的研究热潮,所以作为强化学习重要分支的多智能体强化学习也因此快速发展。不同于AlphaStar的宏观任务管理,目前大多数多智能体强化学习模型更多的关注于微观操作,而合作型多智能体强化学习任务即是通过算法模型控制多个智能体去合作完成一项任务。尽管目前合作型多智能体强化学习已经出现很多优秀的算法以及模型,但依旧拥有很大的上升空间,例如在一些复杂场景下表现不尽如人意以及训练多个智能体时产生的学习过程不稳定等问题。 针对现有基于值函数分解的多智能体混合方法中模型结构过于单一导致,模型能表示的函数簇范围太小,从而不能在一些复杂环境中得到更好的效果的问题上做出了改进。本文提出了用于合作型多智能体强化学习任务中的竞争混合网络(DuelingMixingNetworks,简称AD_mix)模型,通过将单智能体Dueling结构引入多智能体并加以扩展,使得混合网络分为状态值混合网络以及优势值混合网络。状态值混合网络通过使用一个基于注意力机制的结构来将个体状态值函数混合成为联合状态值函数,而优势值函数混合网络直接使用QMIX模型的超参数混合结构来进行混合,最后可以从两个角度来正向混合得到联合动作值函数,以及从两个角度来反向共同优化个体智能体网络。并且还引入了一个网络结构,目的是为了改进在很多情况下动作值函数的大小与每个智能体具体动作的选择无关的现象。而在训练过程不稳定方面,本文使用一个基于累积奖励值的学习率衰减方法来控制每次或每隔一定时间段学习的学习率,另外还使用一个基于全局观测与局部观测对应关系来将局部观测差异消除的变换模型。通过这两个方法最后可以达到使得模型训练过程稳定的目的。最后,整个模型结构是基于QMIX模型的基础上进行改进的,本文使用的稳定性方法,不仅可以用在本文提出的模型中,还可以用于此方向其他基于值函数方法的模型中。 本文选择在平台星际争霸多智能体挑战(TheStarCraftMulti-AgentChallenge,简称SMAC)上进行实验,而且选择了不同难度中具有代表性的几个地图。最后通过这些试验证明,本文提出的竞争变换模型相比以往的方法在不同难度任务的对战中获胜率和训练稳定性方面都有了明显的提升。最后还通过自对比实验与仅将智能体结构改为Dueling结构的模型进行了对比,验证了本文方法的有效性。