无模型强化学习研究综述

Overview of Research on Model-free Reinforcement Learning

秦智慧 ¹李宁 ²刘晓彤 ³刘秀磊 ¹佟强 ¹刘旭红¹

扫码查看

作者信息

1. 北京材料基因工程高精尖创新中心(北京信息科技大学) 北京 100101;北京信息科技大学数据与科学情报分析实验室北京 100101
2. 北京材料基因工程高精尖创新中心(北京信息科技大学) 北京 100101
3. 北京材料基因工程高精尖创新中心(北京信息科技大学) 北京 100101;中国科学院煤炭化学研究所煤转化国家重点实验室太原 030001;中科合成油技术有限公司国家能源煤基液体燃料研发中心北京 101400;中国科学院大学北京 100049
折叠

摘要

强化学习(Reinforcement Learning,RL)作为机器学习领域中与监督学习、无监督学习并列的第三种学习范式,通过与环境进行交互来学习,最终将累积收益最大化.常用的强化学习算法分为模型化强化学习(Model-based Reinforcement Lear-ning)和无模型强化学习(Model-free Reinforcement Learning).模型化强化学习需要根据真实环境的状态转移数据来预定义环境动态模型,随后在通过环境动态模型进行策略学习的过程中无须再与环境进行交互.在无模型强化学习中,智能体通过与环境进行实时交互来学习最优策略,该方法在实际任务中具有更好的通用性,因此应用范围更广.文中对无模型强化学习的最新研究进展与发展动态进行了综述.首先介绍了强化学习、模型化强化学习和无模型强化学习的基础理论;然后基于价值函数和策略函数归纳总结了无模型强化学习的经典算法及各自的优缺点;最后概述了无模型强化学习在游戏AI、化学材料设计、自然语言处理和机器人控制领域的最新研究现状,并对无模型强化学习的未来发展趋势进行了展望.

关键词

人工智能/强化学习/深度强化学习/无模型强化学习/马尔可夫决策过程

引用本文复制引用

基金项目

国家重点研发计划(2018YFC0830202)

北京信息科技大学"勤信人才"培育计划项目(2020)

北京信息科技大学促进高校内涵发展——()

北京市教育委员会科技计划一般项目(KM202111232003)

北京市自然科学基金(4204100)

出版年

2021

计算机科学

重庆西南信息有限公司（原科技部西南信息中心）

计算机科学

CSTPCDCSCD北大核心

影响因子：0.944

ISSN：1002-137X

被引量17

参考文献量5

段落导航