计算机科学2021,Vol.48Issue(9) :257-263.DOI:10.11896/jsjkx.200700044

基于相对熵的元逆强化学习方法

Meta-inverse Reinforcement Learning Method Based on Relative Entropy

吴少波 傅启明 陈建平 吴宏杰 陆悠
计算机科学2021,Vol.48Issue(9) :257-263.DOI:10.11896/jsjkx.200700044

基于相对熵的元逆强化学习方法

Meta-inverse Reinforcement Learning Method Based on Relative Entropy

吴少波 1傅启明 1陈建平 2吴宏杰 3陆悠3
扫码查看

作者信息

  • 1. 苏州科技大学电子与信息工程学院 江苏 苏州215009;苏州科技大学江苏省建筑智慧节能重点实验室 江苏 苏州215009;苏州科技大学苏州市移动网络技术与应用重点实验室 江苏 苏州215009
  • 2. 苏州科技大学江苏省建筑智慧节能重点实验室 江苏 苏州215009;苏州科技大学苏州市移动网络技术与应用重点实验室 江苏 苏州215009
  • 3. 苏州科技大学电子与信息工程学院 江苏 苏州215009;苏州科技大学江苏省建筑智慧节能重点实验室 江苏 苏州215009
  • 折叠

摘要

针对传统逆强化学习算法在缺少足够专家演示样本以及状态转移概率未知的情况下,求解奖赏函数速度慢、精度低甚至无法求解的问题,提出一种基于相对熵的元逆强化学习方法.利用元学习方法,结合与目标任务同分布的一组元训练集,构建目标任务学习先验,在无模型强化学习问题中,采用相对熵概率模型对奖赏函数进行建模,并结合所构建的先验,实现利用目标任务少量样本快速求解目标任务奖赏函数的目的.将所提算法与REIRL算法应用于经典的Gridworld和Obj ect World问题,实验表明,在目标任务缺少足够数目的专家演示样本和状态转移概率信息的情况下,所提算法仍能较好地求解奖赏函数.

关键词

逆强化学习/元学习/奖赏函数/相对熵/梯度下降

引用本文复制引用

基金项目

出版年

2021
计算机科学
重庆西南信息有限公司(原科技部西南信息中心)

计算机科学

CSTPCDCSCD北大核心
影响因子:0.944
ISSN:1002-137X
被引量1
参考文献量15
段落导航相关论文