计算机科学2021,Vol.48Issue(3) :180-187.DOI:10.11896/jsjkx.200700217

无模型强化学习研究综述

Overview of Research on Model-free Reinforcement Learning

秦智慧 李宁 刘晓彤 刘秀磊 佟强 刘旭红
计算机科学2021,Vol.48Issue(3) :180-187.DOI:10.11896/jsjkx.200700217

无模型强化学习研究综述

Overview of Research on Model-free Reinforcement Learning

秦智慧 1李宁 2刘晓彤 3刘秀磊 1佟强 1刘旭红1
扫码查看

作者信息

  • 1. 北京材料基因工程高精尖创新中心(北京信息科技大学) 北京 100101;北京信息科技大学数据与科学情报分析实验室 北京 100101
  • 2. 北京材料基因工程高精尖创新中心(北京信息科技大学) 北京 100101
  • 3. 北京材料基因工程高精尖创新中心(北京信息科技大学) 北京 100101;中国科学院煤炭化学研究所煤转化国家重点实验室 太原 030001;中科合成油技术有限公司国家能源煤基液体燃料研发中心 北京 101400;中国科学院大学 北京 100049
  • 折叠

摘要

强化学习(Reinforcement Learning,RL)作为机器学习领域中与监督学习、无监督学习并列的第三种学习范式,通过与环境进行交互来学习,最终将累积收益最大化.常用的强化学习算法分为模型化强化学习(Model-based Reinforcement Lear-ning)和无模型强化学习(Model-free Reinforcement Learning).模型化强化学习需要根据真实环境的状态转移数据来预定义环境动态模型,随后在通过环境动态模型进行策略学习的过程中无须再与环境进行交互.在无模型强化学习中,智能体通过与环境进行实时交互来学习最优策略,该方法在实际任务中具有更好的通用性,因此应用范围更广.文中对无模型强化学习的最新研究进展与发展动态进行了综述.首先介绍了强化学习、模型化强化学习和无模型强化学习的基础理论;然后基于价值函数和策略函数归纳总结了无模型强化学习的经典算法及各自的优缺点;最后概述了无模型强化学习在游戏AI、化学材料设计、自然语言处理和机器人控制领域的最新研究现状,并对无模型强化学习的未来发展趋势进行了展望.

关键词

人工智能/强化学习/深度强化学习/无模型强化学习/马尔可夫决策过程

引用本文复制引用

基金项目

国家重点研发计划(2018YFC0830202)

北京信息科技大学"勤信人才"培育计划项目(2020)

北京信息科技大学促进高校内涵发展——()

北京市教育委员会科技计划一般项目(KM202111232003)

北京市自然科学基金(4204100)

出版年

2021
计算机科学
重庆西南信息有限公司(原科技部西南信息中心)

计算机科学

CSTPCDCSCD北大核心
影响因子:0.944
ISSN:1002-137X
被引量17
参考文献量5
段落导航相关论文