基于相对熵的元逆强化学习方法

Meta-inverse Reinforcement Learning Method Based on Relative Entropy

吴少波 ¹傅启明 ¹陈建平 ²吴宏杰 ³陆悠³

扫码查看

作者信息

1. 苏州科技大学电子与信息工程学院江苏苏州215009;苏州科技大学江苏省建筑智慧节能重点实验室江苏苏州215009;苏州科技大学苏州市移动网络技术与应用重点实验室江苏苏州215009
2. 苏州科技大学江苏省建筑智慧节能重点实验室江苏苏州215009;苏州科技大学苏州市移动网络技术与应用重点实验室江苏苏州215009
3. 苏州科技大学电子与信息工程学院江苏苏州215009;苏州科技大学江苏省建筑智慧节能重点实验室江苏苏州215009
折叠

摘要

针对传统逆强化学习算法在缺少足够专家演示样本以及状态转移概率未知的情况下,求解奖赏函数速度慢、精度低甚至无法求解的问题,提出一种基于相对熵的元逆强化学习方法.利用元学习方法,结合与目标任务同分布的一组元训练集,构建目标任务学习先验,在无模型强化学习问题中,采用相对熵概率模型对奖赏函数进行建模,并结合所构建的先验,实现利用目标任务少量样本快速求解目标任务奖赏函数的目的.将所提算法与REIRL算法应用于经典的Gridworld和Obj ect World问题,实验表明,在目标任务缺少足够数目的专家演示样本和状态转移概率信息的情况下,所提算法仍能较好地求解奖赏函数.

关键词

逆强化学习/元学习/奖赏函数/相对熵/梯度下降

引用本文复制引用

基金项目

出版年

2021

计算机科学

重庆西南信息有限公司（原科技部西南信息中心）

计算机科学

CSTPCDCSCD北大核心

影响因子：0.944

ISSN：1002-137X

被引量1

参考文献量15

段落导航