强化学习驱动的多智能体作战仿真技术研究

雷凯麟¹

扫码查看

作者信息

1. 西安工业大学
折叠

摘要

随着人工智能的不断发展，军事作战仿真领域迎来了更加智能化的决策方案。本文采用基于强化学习的模型训练方法，在具有不确定性、不完整性的战场环境中，研究多智能体系统的协同决策方法，其目的是解决在作战仿真中多智能体强化学习算法常常面临的算法不稳定、样本利用效率不高和维数爆炸等问题，并在战场仿真环境中对改进算法的有效性进行了实验验证。关于本篇论文的具体工作内容和创新点主要有以下几个方面：首先，基于推演仿真平台构建强化学习模型，通过研究战场上的作战单元、作战武器和作战时长，将复杂场景下多智能体协同作战想定转化为基于任务规划的作战想定和基于动作控制的作战想定，并建立对应的状态空间与动作空间映射关系的强化学习模型，分别是基于任务规划的MDP模型和基于动作控制的MDP模型，实现了兵棋推演平台上的复杂作战想定的状态空间与动作空间的维度分解，显著降低了维数灾难现象。最后使用 DDGP、SAC、MADDPG在两种不同的作战想定上进行实验验证，实验结果证实了这种强化学习分解模型的有效性。针对离策略强化学习算法在训练过程中对经验样本利用效率不高、多次反复搜索等相关问题，通过分析现有的经验回放机制和优先经验回放机制的优点和不足，提出了一种结合KL散度和优先经验回放机制的多智能体强化学习算法（KLPER-MADDPG）。该算法的核心思想是在训练时采集出多个批量经验，然后通过KL散度对这批次的批量经验的优先级进行排序，使用与智能体的当前策略更相近的批量经验进行学习，使得智能体能够更有效地利用已有的经验信息。最后在兵棋推演平台上进行实验验证，结果表明 KLPER-MADDPG 算法显著提高了探索效率并改善了算法的收敛性。对于复杂作战场景中智能体面临的动作空间和状态空间维度过大所导致信息冗赘、维数爆炸、难以学习到关键信息的问题，本文提出了一种基于分层 Actor-Critic 框架的多智能体协同决策方法（HMaAC）。该算法对复杂作战想定按照层级关系对状态空间和指令空间进行分割，高层决策下达集群宏观作战任务规划，低层决策对执行宏观作战指令的作战单元进行动作操控。高低两层智能体使用基于分层的AC框架进行作战决策。在兵棋推演平台上的实验结果表明，与基线算法相对比，HMaAC算法得到了更高的奖励，并且极大地提升了任务成功率。

关键词

多智能体/强化学习/协同决策/KL散度/优先经验回放机制/分层Actor-Critic框架

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

傅妍芳/李铁

学位年度

2024

学位授予单位

西安工业大学

语种

中文

中图分类号

段落导航