基于探索-利用权衡优化的Q学习路径规划

Q-learning Path Planning Based on Exploration/Exploitation Tradeoff Optimization

彭云建 ¹梁进¹

扫码查看

作者信息

1. 华南理工大学自动化科学与工程学院,广东广州 510640
折叠

摘要

针对移动智能体在未知环境下的路径规划问题,提出了基于探索-利用权衡优化的Q学习路径规划.对强化学习方法中固有的探索-利用权衡问题,提出了探索贪婪系数ε值随学习幕数平滑衰减的εDBE(ε-decreasing based episodes)方法和根据Q表中的状态动作值判断到达状态的陌生/熟悉程度、做出探索或利用选择的AεBS(adaptiveεbased state)方法,这一改进确定了触发探索和触发利用的情况,避免探索过度和利用过度,能加快找到最优路径.在未知环境下对基于探索-利用权衡优化的Q学习路径规划与经典的Q学习路径规划进行仿真实验比较,结果表明该方法的智能体在未知障碍环境情况下具有快速学习适应的特性,最优路径步数收敛速度更快,能更高效实现路径规划,验证了该方法的可行性和高效性.

关键词

强化学习/Q学习/探索-利用/路径规划/未知环境

引用本文复制引用

基金项目

国家自然科学基金(61573154)

出版年

2022

计算机技术与发展

陕西省计算机学会

计算机技术与发展

CSTPCD

影响因子：0.621

ISSN：1673-629X

被引量1

参考文献量6

段落导航