摘要
深度强化学习方法在广泛应用的同时,仍面临着在实际任务中训练成本过高的问题,如何利用有限的交互采样次数获得更好的训练效果,即样本效率优化,成为了目前的研究热点。受到采样次数限制,价值函数方法主要面临价值估计误差随着Bellman方程优化累积而造成过估计偏差与智能体探索能力不足的问题,目前引入低估偏差以缓解过高估计与使用内在奖励激励探索的优化方案效果仍然有限。 本文主要探究如何通过改变动作选择策略的方式,提高智能体的探索与利用能力。本文将动作选择策略的作用拆分,在减少额外偏差并保证收敛性的条件下,通过优化行动者动作策略并引入探险家动作策略,兼顾优化训练过程中的利用能力和环境交互过程中的探索能力,以连续动作任务为基准,构建样本效率更高的算法。本文的主要研究工作如下: 1)基于方差控制优化行动者动作选择策略,降低过估计偏差的产生与传播。针对样本利用时产生的过估计问题,阐述估计偏差产生的原因。基于主流的双价值函数架构,证明存在能够缓解过估计偏差产生与传播的动作策略。基于方差控制给出动作策略的优化方案,缓解过估计问题,使价值函数计算更加准确。 2)提出探险家-行动者-评论家(Explorer-Actor-Critic,EAC)框架,提高价值函数方法的样本效率。将动作选择策略的作用拆分,用探险家网络与行动者网络降低探索与优化过程的相互影响。通过优化行动者训练目标降低方差、引入探险家策略增强探索能力、利用动作混合机制缓解经验分布偏差的三部分优化,给出能够同时兼顾探索与利用的方案,并与基线算法结合得到基于探险家-行动者-评论家框架的双延迟深度确定性策略梯度(Explorer-Actor-CriticbasedTwinDelayedDeepDeterministic,EAC-TD3)与基于探险家-行动者-评论家框架的软行动者评论家(Explorer-Actor-CriticbasedSoftActorCritic,EAC-SAC)算法。 3)基于稀疏奖励任务,提出演员好奇心模块增强的双延迟深度确定性策略梯度(TwinDelayedDeepDeterministicwithExplorerCuriosityModule,ECM-TD3)算法进一步提高探索能力。利用训练过程中状态预测误差与状态动作访问次数间的相关性,同时考虑到价值函数方法对内在奖励与估计偏差的敏感性,引入状态预测网络与误差估计网络,为探险家提供具有潜在探索价值的动作梯度方向,在保证训练过程稳定性的同时,提高智能体的探索能力。 本文在理论上给出了完善的分析与实现方案,并基于MuJoCo环境的各类基准任务与基于奖励改造的稀疏奖励任务进行实验验证。在基准任务中,本文的EAC-TD3与EAC-SAC算法有着更高的训练效率与最终性能。在稀疏奖励与随机奖励任务中,EAC框架能够有效降低估计偏并提高智能体的探索能力,ECM-TD3算法的探索能力优化效果最为显著。在消融实验与敏感性分析中,验证各部分优化的作用并指导参数调节。由此,EAC框架能够从样本利用优化与探索效率增强两个角度提高基线算法的样本效率,有效提高基线算法的性能,避免过早的陷入局部最优解,并对其他优化方案有较好的兼容性。