多智能体强化学习中探索策略的研究与实现

胡鑫源¹

扫码查看

作者信息

1. 电子科技大学
折叠

摘要

强化学习在智能决策领域的运用十分广泛。随着智能决策向无人设备控制等复杂场景上发展，需要求解集成多智能体、稀疏奖励、多任务目标等特性的马尔可夫决策过程。智能体仅依靠随机策略难以充分探索环境信息，无法正确利用场景奖励，作出正确决策越发困难。亟需增强智能体的探索能力，平衡强化学习算法训练的探索-利用过程。本论文针对完全合作的多任务目标多智能体场景，将探索困难性分解为任务奖励稀疏和探索空间重合两方面。添设探索策略，引导智能体在环境中的探索，提升智能体的综合信息获取。具体地，本论文研究工作主要包括以下三个部分： 1.提出多次优策略融合的稀疏奖励任务探索策略。在稀疏奖励任务中智能体实现有效探索困难的问题上，虽然已有引入先验知识的方法，但若知识本身具备次优性，融入知识的同时也会给智能体带来错误的信息。本论文基于奖励塑形理论，将先验知识塑形为环境中的一系列内在奖励点，引导智能体对环境进行全新的探索。同时利用数据分布不一致的多个先验策略，尽可能排除每个策略中的次优部分。算法指引智能体的探索方向，降低需要探索的状态空间，增强场景奖励的利用效率。 2.提出智能体任务目标自适应分配探索策略。针对多智能体系统中不同智能体探索空间重合，竞争简单奖励目标的问题，参考智能体角色划分理论，本论文为任务目标和智能体构建匹配度计算算法。在集中式训练阶段调节不同智能体从不同任务目标处获取的奖励，使不同智能体探索到不同的任务目标，学习出不同的策略模型。算法将相似任务目标分配给同一智能体，分化智能体探索的状态空间，提高环境总体探索程度，增强多智能体系统探索的协同性。 3.设计无人机群多任务目标多智能体强化学习系统。在上述两种方法的基础上，为无人机群多任务目标虚拟现实仿真环境建模马尔可夫决策过程，设计多智能体强化学习系统。系统允许智能体在虚拟现实仿真环境中，控制无人机群学习各种多任务目标的策略模型，并为算法模型向真实环境迁移提供了方案。在示例任务场景中，本论文所提出的算法策略能够正确引导多智能体系统中每个智能体在环境中的探索。

关键词

多智能体强化学习/协同探索/探索策略

引用本文复制引用

授予学位

硕士

学科专业

网络空间安全

导师

韩宏正

学位年度

2022

学位授予单位

电子科技大学

语种

中文

中图分类号

段落导航