摘要
随着人工智能技术的不断发展,无人智能体将成为现代战场的重要力量。无人智能体执行军事作战中的侦察、护航、打击等任务时的行为策略,可以转化追捕问题进行求解。面对复杂的作战任务,单个无人智能体难以达成作战目标,往往需要多个无人智能体协作完成任务。如何组织多个无人智能体协同作战,将会影响智能体的作战质量与作战效率。目前,对每个智能体预先设计行为来进行编程控制,是非常困难的。无人智能体必须具备“学习”能力,根据不同的战场态势自主采取行动。强化学习是机器学习的一种形式,强调Agent与其环境交互直接进行学习。 本文以多个智能体追捕多个运动目标为研究对象,旨在研究多个智能体的协作策略,提高对多个运动目标的追捕效率,主要研究内容包含两个部分:完全信息下的多智能体协同强化学习方法和不完全信息下的多智能体协同强化学习方法。 在完全信息条件下的追捕问题中,针对目前研究存在着学习速度慢、抓捕效率低以及难以躲避动态障碍等问题,提出一种基于多智能体协同强化学习的多目标追捕方法。在该方法中,多个追捕智能体能够实时获取多个运动目标的位置,以降低所有追捕智能体追捕目标的总体消耗路径为优化目标,通过匈牙利算法进行任务分配,实时改善智能体的奖励函数,不断重复“探索-积累-学习-决策”过程,从积累的历史数据中学习,更新策略,完成多目标追捕任务。 在不完全信息条件下的追捕问题中,针对目前研究存在多种类型智能体协作效率低、学习速度慢等问题,提出了基于信息共享的多智能体协同强化学习方法。该方法,设计了多种功能类型的协作策略,为不同类型的智能体设计奖励函数,引导智能体产生较优协作行为,协同完成追捕任务。 最后,建立了多智能体仿真系统。仿真结果表明,在不同的任务场景中,多个智能体能够在避免相撞和躲避障碍物的前提下,形成对多个运动目标追捕的最短路线,完成对多个运动目标的追捕任务。