基于自指导动作选择的近端策略优化算法

Proximal Policy Optimization Based on Self-directed Action Selection

申怡 ¹刘全²

扫码查看

作者信息

1. 苏州大学计算机科学与技术学院江苏苏州215006
2. 苏州大学计算机科学与技术学院江苏苏州215006;苏州大学江苏省计算机信息处理技术重点实验室江苏苏州215006;吉林大学符号计算与知识工程教育部重点实验室长春 130012;软件新技术与产业化协同创新中心南京210000
折叠

摘要

强化学习领域中策略单调提升的优化算法是目前的一个研究热点,在离散型和连续型控制任务中都具有了良好的性能表现.近端策略优化(Proximal Policy Optimization,PPO)算法是一种经典策略单调提升算法,但PPO作为一种同策略(on-policy)算法,样本利用率较低.针对该问题,提出了一种基于自指导动作选择的近端策略优化算法(Proximal Policy Optimiza-tion Based on Self-Directed Action Selection,SDAS-PPO).SDAS-PPO算法不仅根据重要性采样权重对样本经验进行利用,而且增加了一个同步更新的经验池来存放自身的优秀样本经验,并利用该经验池学习到的自指导网络对动作的选择进行指导.SDAS-PPO算法大大提高了样本利用率,并保证训练网络模型时智能体能快速有效地学习.为了验证SDAS-PPO算法的有效性,将SDAS-PPO算法与TRPO算法、PPO算法和PPO-AMBER算法用于连续型控制任务Mujoco仿真平台中进行比较实验.实验结果表明,该方法在绝大多数环境下具有更好的表现.

关键词

强化学习/深度强化学习/策略梯度/近端策略优化/自指导

引用本文复制引用

基金项目

国家自然科学基金(61772355)

国家自然科学基金(61702055)

国家自然科学基金(61502323)

国家自然科学基金(61502329)

江苏省高等学校自然科学研究重大项目(18KJA520011)

江苏省高等学校自然科学研究重大项目(17KJA520004)

吉林大学符号计算与知识工程教育部重点实验室项目(93K172014K04)

吉林大学符号计算与知识工程教育部重点实验室项目(93K172017K18)

苏州市应用基础研究计划工业部分(SYG201422)

江苏省高校优势学科建设工程项目()

出版年

2021

计算机科学

重庆西南信息有限公司（原科技部西南信息中心）

计算机科学

CSTPCDCSCD北大核心

影响因子：0.944

ISSN：1002-137X

浏览量1

被引量4

参考文献量1

段落导航