摘要
强化学习领域中策略单调提升的优化算法是目前的一个研究热点,在离散型和连续型控制任务中都具有了良好的性能表现.近端策略优化(Proximal Policy Optimization,PPO)算法是一种经典策略单调提升算法,但PPO作为一种同策略(on-policy)算法,样本利用率较低.针对该问题,提出了一种基于自指导动作选择的近端策略优化算法(Proximal Policy Optimiza-tion Based on Self-Directed Action Selection,SDAS-PPO).SDAS-PPO算法不仅根据重要性采样权重对样本经验进行利用,而且增加了一个同步更新的经验池来存放自身的优秀样本经验,并利用该经验池学习到的自指导网络对动作的选择进行指导.SDAS-PPO算法大大提高了样本利用率,并保证训练网络模型时智能体能快速有效地学习.为了验证SDAS-PPO算法的有效性,将SDAS-PPO算法与TRPO算法、PPO算法和PPO-AMBER算法用于连续型控制任务Mujoco仿真平台中进行比较实验.实验结果表明,该方法在绝大多数环境下具有更好的表现.
基金项目
国家自然科学基金(61772355)
国家自然科学基金(61702055)
国家自然科学基金(61502323)
国家自然科学基金(61502329)
江苏省高等学校自然科学研究重大项目(18KJA520011)
江苏省高等学校自然科学研究重大项目(17KJA520004)
吉林大学符号计算与知识工程教育部重点实验室项目(93K172014K04)
吉林大学符号计算与知识工程教育部重点实验室项目(93K172017K18)
苏州市应用基础研究计划工业部分(SYG201422)
江苏省高校优势学科建设工程项目()