摘要
传统强化学习只使用外在奖励作为信号指引智能体进行决策,使得未来累积奖励值达到最大值。外在奖励稀疏问题是强化学习的一个难点。在奖励稀疏环境中,智能体只有到达终点才能获取奖励,中间缺失的信号会导致智能体学习速度缓慢、花费成本高和策略网络欠拟合等问题。为了解决奖励稀疏问题,本文研究强化学习智能体的内在奖励方法。针对现有的内在奖励方法存在智能体探索效率低、内在奖励消失等问题,完成了以下研究工作: (1)内在奖励的作用主要是促进智能体去不断地探索环境,但探索过程中会面临不安全的动作,目前设计的内在奖励并未考虑环境中动作的风险程度。因此,本文从新颖性和风险评估这两方面设计一个内在奖励,使智能体能充分地探索环境并考虑环境中存在的不确定性动作。该方法首先将新颖性描述为对当前状态-动作和转换后状态的访问次数,将具体执行的动作考虑进去;其次采用累积奖励方差评估当前动作对状态的风险程度。该方法在离散型控制任务和连续性控制任务中进行了测试,实验结果验证该方法取得了更高的平均奖励值,尤其是在外在奖励延迟的情况下,也获得了更高的平均奖励值,表明该方法能有效地解决外在奖励稀疏的问题。 (2)现有的内在奖励随着智能体不断探索环境而逐渐消失,导致智能体无法利用内在奖励信号去学习最优策略。为了解决这个问题,提出了一种基于内在奖励的技能的获取和组合的方法。该方法首先在智能体与环境交互过程中寻找积极状态,在积极状态中筛选子目标;其次从初始状态到达子目标,子目标到达终止状态所产生的一条轨迹中发现技能,对技能中出现一个或者两个以上的子目标进行组合;最后用初始状态到子目标的距离和初始状态到子目标的累积奖励值对技能进行评估。该方法在连续性控制任务中取得了较高的平均奖励值,表明该方法提出的子目标和技能可以有效地解决内在奖励消失后,智能体无法利用内在奖励信号学习最优策略的问题。