基于深度强化学习的四足机器人步态分析

王荣山¹

扫码查看

作者信息

1. 电子科技大学
折叠

摘要

随着科技的发展与人工智能的崛起，各种机器人逐渐出现在大众的日常生活中。相较于履带式机器人以及轮式机器人，腿足式机器人的姿态更加多样与灵活，这种特性使得腿足式机器人能够适应更复杂的地形。其中，四足机器人的稳定性和运动性结合的最好，所以四足机器人成为应用范围最广泛的腿足式机器人。在四足机器人的运动控制层面上，相对传统的方法一般采用模块化控制，但模块化控制的缺点就是智能体不会进行自主学习，科研人员需要对智能体进行繁杂的参数调试，尽管如此，其最终结果很多时候也不甚理想，设计出来的模块化控制器也难以适应复杂的环境。近些年，许多学者注意到了强化学习以及深度学习技术，并将其应用于运动控制学，基于深度强化学习的运动控制方法兼具强化学习与深度学习的优势，其很好的解决了传统方法中关于模块化控制器的种种问题，使得改进后的四足机器人具有了更加卓越的运动性能以及更加强大的地形适应能力，本文的主要研究内容如下所示：（1）深度强化学习控制器的设计。对强化学习以及深度学习均在数学层面上予以分析，设计并构建了深度强化学习控制器，并在其中引入了模糊控制系统，提高算法的性能。（2）运动学分析及建模。建立四足机器人的单腿运动学模型，随后使用传统D-H法进行四足机器人正逆运动学分析，详细分析了四足机器人的各种步态特征，在软件PyBullet中进行四足机器人的仿真建模。（3）基于改进的PPO算法进行四足机器人步态分析。介绍了现有的PPO强化学习方法，并提出了一种基于深度神经网络改进的近端策略梯度强化学习方法，即LSTM-PPO算法。进而设计了仿真实验测试了LSTM-PPO算法，包括模拟四足机器人的步行、对角小跑以及转弯等基本步态控制任务，并对机器人步态进行了监测分析。（4）基于先验知识的深度强化学习四足机器人步态分析。介绍了现有的DDPG强化学习方法以及SAC算法，并将两者结合起来。最终通过PyBullet平台进行了多个任务实验测试了SAC-DDPG算法，并对实验的训练过程进行监测，最后对其中的相关参数进行数据分析。从运动稳定性、收敛速度等角度分析，该算法可以提高四足机器人的运动能力。

关键词

四足机器人/强化学习/运动学分析/步态分析/近端策略优化算法/深度确定性策略梯度算法

引用本文复制引用

授予学位

硕士

学科专业

机械

导师

李迅波

学位年度

2024

学位授予单位

电子科技大学

语种

中文

中图分类号

段落导航