摘要
人工智能的发展让有自主能力的系统和机器在人类社会的各个领域中越来越普及。同时,现实应用中存在很多需要多个机器共同协作来解决的场景,这需要利用多智能体强化学习算法学习协同策略对于机器进行协同控制。然而多智能体强化学习算法也面临着很多问题,智能体在跟环境交互的同时也要跟其他智能体进行交互,由于其他智能体的存在环境状态转移变得不稳定,导致智能体无法学到有效策略。并且智能体系统需要在部分可观测、有限通信带宽以及大规模智能体条件下进行协同。这使得需要设计有效协同机制让智能体能够在有限条件下对于其他智能体有足够的认知能力来克服上述困难。因此,本文将智能体的认知根据认知层次的加深和智能体规模的增大分为通信认知、一致性认知和群体认知三个层次,并分析了三个认知层次中所面临的问题与挑战。这些问题与挑战分别为:在通信认知中,显式通信中不必要的通信往往给策略网络带来噪声,隐式通信中集中训练阶段无关智能体状态输入集中评估函数导致评估函数价值评估不准确;在一致性认知中,集中训练分散执行框架的执行阶段属于完全离散的模式,智能体在执行过程中缺少协同的机制;在群体认知中,大规模智能体组合动作往往不能以粗暴集中的方式进行优化,并且大规模的智能体在环境中分布不均衡导致智能体提供的服务分配不均匀。本文针对三个认知层次面临的挑战性问题提出了相应的解决方法,论文主要工作如下: (1)对于通信认知协同,针对显式通信中不必要的通信往往给策略网络带来噪声的问题,提出一种基于因果推理判断是否进行通信的多智能体协同算法CICM,该算法利用概率图模型将强化学习和因果推理联合建模,并且使用ITE估计干预变量(是否通信)的反事实结果决定是否进行通信,CICM通过减少不必要的通信增强通信认知能力,在减少通信频率的同时最大限度提升算法收益;针对隐式通信中集中训练阶段无关智能体状态也会输入集中评估函数,从而导致评估函数价值评估不准确的问题,提出一种基于变分自编码器的结构关系推理Actor-Critic算法SRI-AC。SRI-AC通过推理的关系构成图结构,结合图注意力网络整合智能体的邻居信息作为评估函数的状态输入,以此增加评估函数的准确性。SRI-AC算法通过构建隐式通信的结构关系增强通信认知能力,提高评估函数的准确性的同时提高了智能体协同效果。 (2)对于一致性认知协同,针对集中训练分散执行框架在执行阶段属于完全离散的模式,智能体在执行过程中缺少协同的机制的问题,提出一种基于变分循环网络让智能体得到一致性信念的算法CBMA,该算法在训练阶段让变分循环网络产生的信念相互逼近而得到一致性的信念,从而保证了一致性认知的能力,并以此提高了智能体协作的收益。而在执行阶段每个智能体只利用自己生成的一致性信念得到自己的动作,保证了算法分散执行的特点。 (3)对于群体认知协同,针对大规模智能体场景中,一个典型的场景城市规模拼车定价–匹配问题中存在相互影响的组合动作,组合动作往往不能以粗暴集中的方式进行优化,提出一种双层的强化学习算法,将用于定价的平均场Q-learning算法和用于匹配的近似动态规划算法以一种协同的方式结合起来,来优化定价和匹配策略。平均场Q-learning算法让智能体对于群体有更好的认知,以此提升需拼车平台的收益(高达17%,平均6.4%)并实现环境的可持续发展;针对大规模智能体在环境中智能体分布不均衡导致资源分配和供需关系不平衡的问题,一个典型的场景城市规模拼车环境中车辆与订单存在分布差异,提出一种车辆(智能体)调度的框架,并使用平均场强化学习算法结合内在奖励值(车辆和订单分布之间的互信息)来调度这些车辆,以此提升智能体对于车辆群体的认知缓解供需不平衡问题,同时提升拼车平台的收益,比现有的按需拼车的最佳方法平均提高了3%的收入。