融合技能和先验知识的元强化学习方法的研究

伍家威¹

扫码查看

作者信息

1. 广东工业大学
折叠

摘要

互联网技术推动了元强化学习领域的发展，该领域在少样本学习、自动超参调整、学习损失函数、机器人和游戏博弈等方面有广泛应用。元强化学习通过元训练任务学习任务信息和先验知识，以指导智能体决策，加速新任务的学习。为提升性能，主流方法引入了大型离线数据集，这降低了训练成本并更符合实际应用需求。尽管元强化学习在人工智能领域取得了进展，但在处理长期且奖励稀疏的任务时，仍存在泛化性和样本效率问题。主要原因之一是离线数据集非结构化，缺乏任务标注和奖励信息，难以支持新任务学习。一些研究尝试从无奖励的离线数据中发现技能，但初期探索不足，导致对环境和任务理解不深，影响技能学习。这构成了第一个挑战：如何在无监督的条件下从这些数据中学习到有用的技能。此外，仅从离线数据中提取技能不足以适应新任务。元训练任务提供的环境结构和动态特性信息对智能体理解新任务至关重要。现有方法在连续潜在空间探索和学习过程耦合上存在局限，难以从元训练任务中提取有效先验知识，影响对新任务的适应能力。这构成了第二个挑战：如何有效提取任务上下文中隐含的先验知识，并将其与已学习到的技能相融合。为了解决无监督条件下从数据中学习到有用技能的挑战，本文提出了一种基于技能发现的元强化学习(Skill Discovery-based Meta Reinforcement Learning，SDMRL)方法。核心思想是利用互信息构建优化目标。首先，为了确保技能能有效指导智能体状态转换，本文最大化技能和状态之间的互信息，增强技能队状态的控制能力。其次，应该利用状态而不是动作来区别技能，通过最小化在给定状态下技能和动作之间的互信息，减小技能与动作的关联性，使技能不再依赖特定动作。然后，应该鼓励探索，通过最大化该混合策略的熵，学习尽可能随机的技能来使得学到的技能尽可能多样化。最后，本文提出了基于技能的SAC，将优化目标引入SAC的训练中，让智能体从非结构化数据中无监督地学习到有用的技能。实验结果展示了该方法在迷宫导航(Maze Navigation)环境中显著提升了智能体的泛化能力和样本效率。为了解决从任务上下文提取先验知识并与技能相融合的挑战，本文提出了一种基于技能与先验知识融合的元强化学习(Integrating Skill and Prior Knowledge in Meta Rein-forcement Learning，ISPKMRL)方法。本文通过不同任务的任务上下文的不相似性和相同任务的不同任务上下文的相似性来对任务上下文进行对比约束，并训练了一个任务编码器从任务上下文中提取关键信息和特征，从而获得具有泛化能力的先验知识。同时，训练了一个高级技能策略，根据当前状态和先验知识选择合适的技能，实现技能和先验知识的融合。此外，本文还分别对先验知识和技能进行聚类，解耦其空间的探索和学习过程。实验结果展示了该方法在迷宫导航环境下能更有效地适应未见过的目标任务，说明了该方法可以增强先验知识的可泛化性和融合技能和先验知识的有效性。本文针对目前元强化学习方法存在的样本效率低下和泛化能力不足的问题，提出了两种新颖的元强化学习方法。前者通过互信息构建优化目标，学习到更有用的技能。后者通过对比学习提高从任务编码器中获得的先验知识的泛化能力，并通过高级技能策略实现技能与先验知识的融合。这些方法在迷宫导航环境中展现出了优异的性能和潜力。

关键词

元强化学习/技能发现/对比学习/先验知识

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

郝志峰/高建涛

学位年度

2024

学位授予单位

广东工业大学

语种

中文

中图分类号

段落导航